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统计 独立 性 是 统计 学 和 机 器 学 习 领 域 的 基础 性 概念 ， 如 何 表 示 和 有 
独立 性 是 该 领域 的 基本 问题 。Copula 到 
工具 ， 而 Copula 入 理论 则 给 出 了 度量 统计 独立 性 的 概念 工具 。 
Copula 信 的 理论 和 应 用 ， 概 述 了 其 基本 概念 定义 、 定 理 和 性 质 ， 以 及 估计 


摘要 


HE 度量 统计 
E 论 提供 了 统计 相关 关系 表示 的 理论 
本 文 综述 了 


方法 。 介 绍 了 Copula Osta, CREST AALS 


:本 问题 


(结构 学 习 、 关 联 发 现 、 变 量 选择 、 
适应 、 正 态 性 检验 和 双 样 本 检验 等 
之 间 的 关系 ， 以 及 其 对 应 的 深层 次 


HREM, KAPHA. WET. Ke 
) 上 的 理论 应 用 。 讨 论 了 前 四 个 理论 应 用 
的 相关 性 和 因果 性 概念 之 间 的 联系 ， 并 将 


Copula WHY (IPF) 独立 性 度量 框架 与 基于 核 函数 和 距离 相关 的 同类 框架 


H 


进行 了 理论 对 比 ， 又 通过 仿真 和 实际 数据 实验 评估 验证 了 Copula ABS SC Es 


优越 性 。 简 述 了 Copula MEMEHA 


水 文学 、 气 候 学 、 气 象 学 、 环 境 学 、 


学 、 运 动 神经 学 、 计 算 神 经 学 、 心 
断 学 、 老 年 医学 、 精 神 病 学 、 公 共 


E 学 、 理 论 化 学 、 化 学 信息 学 、 
生态 学 、 动 物 形 态 学 、 农 学 、 认 知 神经 
理学 、 系 统 生物 学 、 生 物 信息 学 、 


材料 学 、 


临床 诊 


学 、 计 算 语言 学 、 新 闻 传 播 学 、 法 


航空 航天 、 车 辆 工程 、 电 子 工程 、 
工程 等 领域 的 实际 应 用 。 
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卫生 学 、 经 济 学 、 管 理学 、 社 会 学 、 教 育 
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Abstract 


Statistical independence is a core concept in statistics and machine learn- 
ing. Representing and measuring independence are of fundamental impor- 
tance in related fields. Copula theory provides the tool for representing 
statistical independence, while Copula Entropy (CE) presents the tool 
for measuring statistical independence. This paper first introduces the 
theory of CE, including its definition, theorem, properties, and estima- 
tion method. The theoretical applications of CE to structure learning, 
association discovery, variable selection, causal discovery, system identi- 
fication, time lag estimation, domain adaptation, multivariate normality 
test, and two-sample test are reviewed. The relationships between the for- 
mer four applications and their connection to correlation and causality are 
discussed. The frameworks based on CE, the kernel method, and distance 
correlation for measuring statistical independence and conditional inde- 
pendence are compared. The advantage of CE over other independence 
and conditional independence measures is evaluated. The applications 
of CE in theoretical physics, theoretical chemistry, cheminformatics, ma- 
terials science, hydrology, climatology, meteorology, environmental sci- 
ence, ecology, animal morphology, agronomy, cognitive neuroscience, mo- 
tor neuroscience, computational neuroscience, psychology, system biology, 
bioinformatics, clinical diagnostics, geriatrics, psychiatry, public health, 
economics, management, sociology, pedagogy, computational linguistics, 
mass media, law, political science, military science, informatics, energy, 
food engineering, architecture, civil engineering, transportation, manu- 
facturing, reliability, chemical engineering, aeronautics and astronautics, 
automobile, electronics, communication, high performance computing, re- 


mote sensing, and finance are briefly introduced. 


Keywords: copula entropy; transfer entropy; correlation; causality; struc- 
ture learning; association discovery; variable selection; causal discovery; 
system identification; time lag estimation; domain adaptation; normality 


test; two-sample test; multidisciplinary application 
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1 引言 


统计 独立 性 是 统计 学 和 机 器 学 习 领 域 的 基础 性 概念 ， 如 何 表示 和 度量 统计 
独立 性 是 统计 学 的 基本 问题 。 在 统计 学 早期 的 19 世纪 ,就 有 Pearson [I] 提出 了 
相关 系数 的 概念 来 度量 统计 独立 性 ， 并 应 用 于 优生 学 的 研究 。 上 个 世纪 ,在 对 相 
关 性 的 研究 中 Copula 函数 理论 被 提出 ， 提 供 一 种 统一 表示 随机 变量 之 间 统 计 关 
联 关系 的 理论 工具 [DEB]. AGE Sklar 定理 贿 ， 通 俗 地 讲 ， 任 何 一 个 多 变量 之 间 
的 关联 关系 都 对 应 着 一 个 用 于 表示 这 种 关系 的 函数 ， 称 为 Copula 函数 。Copula 
函数 表示 了 多 变量 之 间 全 部 的 关联 关系 ， 且 与 单个 变量 的 性 质 是 无 关 的 。 

2008 年 , 马 健 和 孙 增 匠 提出 了 Copula ili (Copula Entropy: CE) 的 概念 [B]. 
CE 的 概念 由 Copula 密度 函数 定义 而 来 ， 本 质 上 是 一 种 香农 炳 的 形式 。 我 们 也 
证 明了 它 与 信息 论 图 中 的 互信 息 概念 是 等 价 的。 事实 上 ，CE 的 提出 是 受到 了 
这 样 的 启发 ，Copula 函数 被 认为 包含 了 全 部 的 关联 关系 ， 而 互信 息 一 直 被 认为 
度量 了 全 部 的 关联 关系 的 信息 ， 那 么 我 们 认为 这 二 者 之 间 必 然 有 某 种 联系 。 对 
这 种 必然 联系 的 研究 的 结果 ， 就 是 提出 了 CE 的 理论 。 

CE 是 一 种 多 变量 之 间 关联 关系 度量 的 理论 , 与 关联 关系 表示 理论 一 Cop- 
ula 函数 理论 相对 应 。Copula 函数 表示 关联 关系 ,而 由 之 得 到 的 CE 度量 了 关系 
中 的 信息 量 。CE 是 一 个 理想 的 统计 独立 性 度量 的 概念 ， 具 有 很 多 优美 的 属性 ， 
包括 对 称 性 、 非 正 性 、 单 调 变换 不 变性 、 以 及 在 高 斯 变量 时 与 相关 系数 等 价 等 。 

CE 是 一 种 理想 的 统计 相关 性 度量 工具 ， 同 时 它 又 可 以 用 来 表示 和 度量 另 一 
个 重要 的 统计 学 概念 一 一 条 件 独 立 性 (Conditional Independence: CI) 。 这 样 ， 
我 们 就 得 到 了 一 个 基于 CE 的 (条件) 独立 性 度量 理论 框架 ， 将 相关 性 和 因果 
性 这 两 个 基本 概念 统一 起 来 。 

CE 是 一 个 基础 性 的 统计 工具 ， 可 以 用 来 解决 多 个 统计 学 的 基本 问题 。 我 们 
在 2008 年 就 将 其 应 用 到 结构 学 习 问 题 上 财 ， 用 来 学 习 统 计 变 量 之 间 的 关联 关 
系 结构 。 最 近 , 我 们 又 将 其 应 用 到 关联 发 现 图 、 变 量 选择 D ARR LO). 域 
自 适应 (lj. Ege 由、 双 样 本 检验 [o]. ipae tss [4] 和 系统 辨识 
等 问题 上 ， 都 取得 了 良好 的 应 用 效果 。 

作为 一 种 基础 性 的 数据 分 析 工 具 ，CE 被 提出 以 来 ， 在 多 个 不 同学 科 得 到 了 
实际 的 应 用 , 包括 理论 物理 学 (LG). 理论 化 学 也 四 、 化 学 信息 学 [18]. 材料 学 (LO). 
水 文学 [pas]. ^to na as]. 气象 学 hahe. m pdb. tss pih. 
动物 形态 学 [pz ba]. xæ Ba]. VA ali), aama [62 66]. 319 
神经 学 (67,68), DHE [eo]. xat [ro ri]. E mese frat). ira 
iex D. 、 老 年 医学 上 gg、 精神 病 学 Baba. Ase pa pj. 2 
济 学 Beo Bo]. 、 管 理学 [oo 8 耻 、 社 会 学 fil. Scere 四 四 、 计 算 语言 学 3. 3 
闻 传 播 学 fod]. yee [po]. mock bo]. axa [o7]. tma 由 引 ， 以 及 能 源 工 
& [14b 107. 食品 工程 (108 o9]. 土木 建筑 (i10) [rui] zmz hA. 
造 工程 ud. meere [us]. warm (n9 2 了 、 航 空 航天 [122-125]. 
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车 辆 工程 hd, n fL [127]. fere: (128 29]. gene [130]. w 
遥感 [131] 和 人 金融 工程 等 。 在 这 些 应 用 中 ，CE 被 用 来 分 析 和 度量 多 
学 科 数 据 中 的 统计 关联 性 或 因果 性 ， 用 以 增加 对 数据 中 变量 间 统 计 关 系 的 理解 ， 
或 者 用 于 建立 和 评价 模型 。CE 工具 不 仅 为 各 种 应 用 提供 了 理论 支撑 ， 同 时 也 改 
进 了 计算 的 可 靠 性 和 效率 。 

在 以 上 实际 应 用 中 , 研究 者 也 提出 了 一 些 基于 CE 仑 的 新 方法 , 如 GCMI 
方法 [b]. 信息 瓶颈 (Information Bottleneck) ) 计算 [L8 ba. 独特 信息 (Unique 
Information) 估计 [68]. ela [3]. rca zi 聚 类 
算法 时 | 蜂 、 非 线性 主 元 分 析 [120] 、 决 策 树 构建 Bole). REESE FA BER 
结构 学 习 [87] {L08, hod. Copula > [40]. i Copula £ mx D ‘cle 
和 Survival CE [78] 等 。CE 作为 一 种 基础 性 的 理论 方法 ， 给 出 了 一 
性 和 因果 性 的 普 适 性 基本 工具 ， 为 更 多 新 方法 论 的 派生 提供 了 可 能 

本 文 第 四 名 分 介绍 Copula NBC RM YE ITE, suana CE 在 统计 
学 中 的 理论 应 用 ， 用 于 解决 统计 学 的 八 个 基本 问题 ， 第 图 部 分 讨论 四 个 相关 的 问 
题 ， ERA RR GE CE 在 多 个 不 同学 科 领 域 中 的 实际 应 用 ， 第 图 部 分 对 论文 
进行 总 结 。 


2 Copula hy 


2.1 理论 


Copula 理论 是 关于 多 随机 变量 之 间 相 互 依赖 关系 表示 的 理论 | BB. 此 理论 
定义 一 类 函数 ， 成 为 Copula 函数 ， 定 义 如 下 : 
定义 1 (Copula 函数 ) 给 定 N 维 随 机 向 量 义 = (Xi1,..., XN) E R^ už 
T X 的 边缘 分 布 函 数 u; = Filzi) i= 1,..., N. UX ow N 4 oon Erd 
C: IN > I,I = [0,1] 需要 满足 如 下 性 质 : 


1. CAS FARA 0 且 在 单位 立方 体内 的 任意 子 立 方 体内 单调 递增 ; 


2. C(1,...,1, ui, 1,..., 1) =u. 


直观 的 理解 ，Copula 函数 就 是 在 单位 N 立方 体 上 的 分 布 函数 ,边缘 分 布 为 均匀 
分 布 , 下 确 界 为 0， 且 在 任意 向 上 方向 上 单调 增加 。 从 Copula 函数 出 发 ， 对 各 
变量 求 导 ， 可 以 很 容易 地 定义 与 之 相对 应 的 Copula 密度 函数 cu). 
Copula 理论 的 核心 结论 是 Sklar 定理 ， 给 出 了 如 何 利用 Copula 函数 表示 
随机 变量 依赖 关系 的 结论 ， 如 下 : 
a (Sklar 定理 ) [J| 给 定 任意 N 维 随机 变量 X 的 联合 分 布 函 数 F(X), 
缘分 F,(X;) fe Copula 函数 C(u ^ 则 联合 分 布 函数 可 以 表示 为 输入 为 
re: 数 的 Copula 函数 的 形式 ， 如 下 


F(x) = C(Fy(1),..., Fw (znN)). (1) 
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Copula 函数 的 表示 将 多 变量 的 联合 分 布 与 单个 变量 的 联合 分 布 分 离开 来 ， 将 依 
赖 关系 表示 为 一 个 Copula 函数 。 因 此 ， 依 赖 关 系 与 单个 变量 的 属性 是 没有 关系 
的 ，Copula 函数 中 包含 了 全 部 的 依赖 关系 信息 。 对 式 帅 两 边 求 导 ,就 得 到 相应 
的 Sklar 定理 的 密度 函数 版 本 : 


p(x) = c(u) Lee». (2) 


EP, pO) 表示 概率 密度 函数 。 

利用 Copula 密度 函数 的 表示 ， 我 们 就 可 以 定义 Copula 4j, "WP: 

定义 2 (Copula Jj) iy 给 定 多 随机 变量 X, RAHWAY A ue Copula 密度 
SK clu), N) Copula tae LA: 


= 


A(x) = 一 l c(u) log c(u)du. (3) 


u 


在 信息 论 中 , 互信 息 (Mutual Information: MI) PREA ELAR E AR 
S (6). 在 文献 B] 中 , 我 们 证 明了 二 者 本 质 上 是 相同 的 ， 也 即 是 ，MI 等 价 于 负 
的 CEB， 也 可 以 表示 成 粹 的 形式 。 定 理 如 下 : 


定理 2 多 随机 变量 的 MI 等 价 于 其 负 的 CE. 
I(x) = —He(x). (4) 


EMUR. p EBT VAS BSS ARAMA CE 之 间 
关系 的 推论 ， 如 下 : 


推论 1 SMMRSHRS IST WAM Fe CE 的 和 。 


H(x) = 2 Ali) + H«(x). (5) 


以 上 结论 通过 CE 的 定义 ， 加 深 了 我 们 对 信息 论 基本 概念 及 其 之 间 关 系 的 了 解 ， 
也 因此 在 Copula 理论 和 信息 论 之 间架 起 了 一 座 桥梁 。 


2.2 性质 

WIPE 由 Copula 理论 得 到 的 CE 具有 很 多 有 趣 的 性 质 。 首 先 从 定义 来 看 ，CE 
是 一 种 特殊 的 香农 炉 ， 定 义 在 单位 体 的 概率 分 布 函数 上 ， 因 此 其 也 具有 香农 倘 
具有 的 连续 性 、 对 称 性 和 可 加 性 等 特性 。 


多 变量 香农 的 MI 定义 针对 的 是 二 变量 情况 ,但 CE 概念 不 限于 二 变量 的 情 
bb, 也 适用 于 多 变量 的 情况 ， 且 多 变量 之 间 具 有 对 称 性 , 扩展 了 MI 的 定义 和 适 
用 范围 。 
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全 阶 次 ”由 Copula 密度 函数 而 定义 的 CE 从 一 个 新 的 角度 给 出 了 对 MI 概念 更 
深入 的 理解 。Copula 函数 被 认为 是 包含 了 随机 变量 之 间 所 有 相关 性 的 信息 ， 那 
么 CE 作为 相关 性 的 随机 性 的 度量 ， 就 等 于 给 出 了 随机 变量 之 间 所 有 阶 次 相关 
性 的 信息 量 。 


单调 变换 不 变性 ”由 于 Copula 函数 具有 单调 变换 不 变性 ， 因 此 基于 Copula K 
数 定义 的 CE 天 然 地 继承 了 这 一 不 变性 特性 。 


边缘 函数 无 关 ”上面 提 到 ，Copula 理论 将 联合 分 布 分 解 为 边缘 函数 和 Copula 
函数 两 个 相对 独立 的 部 分 ， 这 也 对 应 到 联合 依 的 分 解 : 随机 变量 的 联合 炉 也 可 
PATH MR AA CE 两 个 相互 无 关 的 部 分 。 而 MI 与 CE 等 价 ， 因 此 
MI (CE) 只 与 Copula 函数 有 关 ， 与 边缘 函数 无 关 、 联 合 函 数 无 关 ， 这 与 香农 
基于 边缘 函数 和 联合 函数 的 MI 定义 构成 了 显著 的 理论 区 别 。 


非 正 性 ”需要 指出 的 是 ，CE 本 身 是 非 正 的 , 它 表 明了 由 于 多 变量 之 间 具 有 相关 
性 ， 使 得 多 变量 之 间 相 互 包含 有 其 他 变量 的 信息 ， 因 此 就 使 得 联合 箭 的 总 信息 
量 减少 , ROA ARV) FET EWA A. 一 般 地 讲 , EE T GLE 
量 的 不 确定 性 ， 是 非 负 的 ; 而 CE 则 是 非 正 的 ， 因 为 它 度量 了 由 于 变量 间 相 关 
生 导 致 减少 的 不 确定 性 。 


D 


—B 


等 价 关系 ”相关 系数 是 统计 学 传统 的 相关 性 度量 ， 它 隐 含 着 分 布 高 斯 性 的 假设 。 
可 以 很 容易 证 明 ， 在 高 斯 分 布 的 情况 下 ， 相 关系 数 与 CE 具有 数学 上 的 等 价 关 
系 ， 即 CE 可 以 由 相关 系数 矩阵 来 表示 。 


2.3 ”估计 方法 


MI 作为 信息 论 的 基本 概念 ， 具 有 广泛 的 应 用 价值 。 但 学 界 普遍 认为 MI 的 
估计 是 十 分 困难 的 。 我 们 根据 定理 2, 给 出 了 一 个 简单 且 优 雅 的 非 参 数 CE (MI) 
估计 方法 问 。 该 方法 仅 需 如 下 2 步 : 


1. 估计 经 验 Copula 密度 函数 ; 


2. 由 经 验 Copula 密度 函数 估计 CE. 


给 定 随 机 变量 X 的 一 组 独立 同 分 布 样本 {zx1,.…. mr) 可 以 很 容易 地 通过 次 序 
统计 量 (rank) 来 估计 经 验 Copula 密度 函数 ， 如 下 


coer 
Fi(zi) = =D l(z; < zx), (6) 


t=1 


1 本 方法 已 经 实现 为 R 和 Python 语言 的 copent Hy [141], E4 CRAN 和 PyPI 
上 发 布 共享 。 
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其 中 1(.) 表示 示 性 函数 。 

在 得 到 经 验 Copula 密度 函数 后 , 第 2 步 就 是 一 个 灶 估 计 的 问题 , 有 很 多 方 
法 可 以 采用 。 我 们 采用 了 Kraskov 等 [142] 提出 的 近邻 法 来 估计 CE， 因 为 它 
是 一 个 非 参 数 方法 ， 具 有 良好 的 估计 性 能 。 

由 于 在 两 步 中 都 采用 了 非 参数 的 方法 (次 序 统计 量 和 k 近邻 法 )， 因 此 ,我 
们 就 得 到 了 一 个 非 参 数 的 CE 估计 方法 。 方 法 简单 ， 易 于 实现 ， 且 计算 量 要 求 
较 低 。 此 方法 是 一 个 典型 的 基于 序数 (rank) 统计 量 的 非 参数 估计 方法 ,将 CE 
非 参数 估计 的 本 质 等 价 于 计算 归 一 化 的 序数 统计 量 的 粹 ， 内 涵 深 刻 。 


3 理论 应 用 


3.3 结构 学 习 


从 数据 分 析 一 组 随机 变量 之 间 的 关联 结构 ， 可 以 帮助 我 们 了 解 系统 内 部 的 
内 在 结构 关联 性 , 具有 重要 的 应 用 价值 . 在 统计 和 机 器 学 习 学 习 中 ,表示 这 种 关 
联结 构 的 主要 工具 方法 是 图 (Graph), ， 图 中 的 顶点 表示 随机 变量 ， 顶 点 之 间 的 
边 表示 变量 之 间 的 关联 ， 边 的 权重 表示 关联 的 强度 。 图 又 分 为 有 向 图 和 无 向 图 ， 
前 者 的 边 具 有 方向 而 后 者 则 无 方向 ， 前 者 表示 变量 之 间 的 因果 关系 而 后 者 表示 
关联 关系 。 从 数据 中 学 习 这 种 关联 图 结构 的 问题 ， 被 称 为 结构 学 习 (Structure 
Learning ) 。 
结构 学 习 的 算法 很 多 ， 其 中 比较 著名 的 有 Chow-Lin 的 图 结构 学 习 方法 
上 4 直 . 该 方法 通过 学 习 变量 的 互信 息 抢 阵 ,再 基于 矩阵 学 习 最 小 生成 树 (MinimaL 
Spanning-Tree: MST) 来 得 到 主要 关联 结构 的 骨架 。 
利用 互信 息 和 CE 的 等 价 性 ， 我 们 给 出 了 Chow-Liu 算法 的 CE 版 本 f, 
包含 两 步 : 

1. 利用 CE 估计 方法 学 习 得 到 随机 变量 的 关联 矩阵 ; 

2. 再 利用 MST 生成 算法 从 上 述 矩 阵 得 到 关联 图 结构 。 
由 于 我 们 的 CE 佑 计 方法 简单 有 效 , 相 较 于 传统 的 互信 息 估计 具有 明显 优势 , 因 
此 也 使 得 Chow-Liu 算法 更 可 靠 有 效 。 

我 们 将 算法 应 用 到 两 个 经 典 的 UCI 机 器 学 习 数据 集 [lad]: 鲍鱼 生长 数据 
集 和 波士顿 房价 数据 集 。 实 验 结果 显示 ， 算 法 能 够 得 到 具有 可 解释 性 的 关联 结 
构 ， 使 我 们 对 数据 反映 的 鲍鱼 生长 特性 和 波士顿 房价 相关 因素 的 内 在 关系 有 了 
更 深入 的 理解 。 B 
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3.2 ”关联 发 现 

经 验 科 学 是 分 析 数 据 的 学 问 。 通 过 分 析 收 集 的 观察 或 经 验 数据 ， 人 们 得 出 
对 象 系统 的 科学 结论 。 关 联 的 概念 是 多 元 统计 分 析 的 基本 工具 之 一 。 它 度量 了 
随机 变量 之 间 的 统计 性 内 在 联系 ， 进 而 被 赋予 科学 意义 。 发 现 关联 关系 是 科学 
研究 的 主要 内 容 方法 之 一 。 

Pearson 相关 系数 fl) 是 一 种 统计 学 史上 重要 的 相关 性 度量 概念 ， 教 科 书 里 
都 会 讲 到 ， alee 但 由 于 它 是 统计 学 早期 提出 的 概念 ,因此 具有 很 多 局 
限 性 。 从 理论 上 来 讲 ， 它 只 适用 于 线性 相关 关系 的 情况 ， 隐 合 着 高 斯 分 布 的 假 
a T 它 是 一 个 二 变量 的 度量 , 没有 多 变量 
的 版 本 。 

CE 则 是 一 种 更 高 级 的 相关 性 度量 , 相对 于 Pearson 相关 系数 具有 显著 的 优 
势 。 它 没有 线性 和 高 斯 性 的 假设 ， 且 是 一 个 多 变量 的 相关 性 度量 。 实 际 上 ，CE 
度量 的 是 统计 独立 性 ， 比 相关 性 更 宽泛 的 概念 ， 在 统计 独立 的 情况 下 ， 其 为 0。 
CE 还 具有 单调 变换 不 变性 ， 且 在 高 斯 分 布 的 情况 下 ， 与 相关 系数 等 价 。 简 单列 
一 下 CE 作为 相关 性 度量 的 优点 : 


。 无 模型 假设 ， 

。 可 处 理 非 线性 关系 ， 
统计 独立 性 度量 ， 
单调 变换 不 变性 ， 

。 在 高 斯 情况 下 与 相关 系数 等 价 。 


综合 了 如 此 多 优点 ，CE 是 一 个 完美 的 相关 性 度量 ， 完 全 可 以 替代 Pearson 相关 
系数 ， 适 用 于 任何 类 型 的 相关 性 度量 。 Pearson 相关 系数 作为 一 个 历史 修 久 的 统 
计 工具 ， 可 以 进入 历史 了 。 

A 仓 上 的 对 比 ， 可 参见 论文 Bl. ELEF 
用 著名 的 NHANES 医学 体检 数据 也 4 可 ， 从 实验 上 证 明了 CE 的 显著 优越 性 目 。 


3.3 变量 选择 

变量 ITE (Variable Selection) ， 又 称 特征 选择 ， 是 统计 和 机 器 学 习 的 基本 
问题 了 。 当 人 们 试图 从 一 组 自 变量 和 目标 预测 变量 之 间 建 立 函数 关系 时 ， 
1 EIC 目标 变量 有 内 在 联系 的 自 变量 子 集 作为 函数 模型 的 输入 ， 
以 提高 模型 的 科学 性 (或 可 解释 性 ) ， 同 时 降低 模型 的 复杂 度 。 这 样 的 问题 称 为 
变量 选择 。 在 统计 和 机 器 学 习 中 ， 变 量 选择 主要 用 于 多 元 分 类 或 回归 分 析 中 建 
立 的 函数 模型 关系 。 


3 实验 代码 : https://github.com/majianthu/nhane 
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传统 的 变量 选择 方法 很 多 , 主要 的 有 准则 法 、 模 型 正则 化 方法 和 关联 度量 


法 。 主 要 的 准则 法 有 AIC (148) 和 BIC [149] 等 ， 通过 在 似 然 函 数 上 加 上 对 模型 


复杂 
的 过 
者 的 
和 弹 
的 形 
标 变 
包括 
JL 
密 特 


距离 
小 依 


变量 


度 的 惩罚 项 得 到 。 模型 正则 化 方法 主要 用 于 广义 线性 回归 模型 , 在 学 习 模型 
程 中 , 通过 在 似 然 函 数 上 加 上 模型 参数 (线性 系数 ) 的 1 范 数 或 2 范 数 或 二 
组 合 得 到 , 经 典 的 方法 包括 LASSO [150]. 岭 回归 (Ridge Regression) [151] 
性 网 络 (Elastic Net) [152] 等 。 以 上 两 类 方法 都 是 基于 似 然 函数 加 惩罚 项 
式 完成 变量 选择 ， 都 是 模型 有 关 的 。 关 联 度量 的 方法 则 是 通过 自 变量 和 目 
量 之 间 的 关联 强度 来 选择 变量 ， 通 常 是 模型 无 关 的 。 主 要 的 关联 关系 度量 
传统 的 Pearson 相关 系数 ,但 它 只 能 度量 线性 关系 ， 仅 适用 于 线性 模型 。 其 
个 主要 的 非 线性 关联 度量 也 都 被 应 用 到 变量 选择 问题 上 ， 包 括 希 尔 伯 特 - 施 
独立 性 准则 (Hilbert-Schmidt Independence Criterion: HSIC) [153,154] 和 
相关 (Distance Correlation: DC) 155,156) 等 。 

变量 选择 问题 ,推荐 CE 方法 ,不 建议 LASSO 或 者 p-value 等 传统 统计 方 
本 方法 利用 CE 度量 自 变量 和 目标 变量 之 间 的 关联 强度 ， 根 据 强度 从 大 到 
次 选择 变量 。 在 变量 选择 问题 上 ，CE 已 被 真实 数据 实验 证 明 优 于 以 下 主流 
选择 方法 : 


LASSO / Ridge Regression / Elastic Net [150.1152], 

AIC / BIC [148149], 

Adaptive LASSO [157], 

Hilbert-Schimdt Independence Criterion (HSIC) [153,154], 
Distance Correlation [155,|156), 


Heller-Heller-Gorfine Tests of Independence [158], 


Hoeffding's D test [159], 


Bergsma-Dassios T* sign covariance [160], 


Ball correlation {161}. 


实验 采用 了 著名 的 UC 心脏 病 数据 集 [144], 将 CE 方法 与 以 上 方法 进行 对 比 。 


该 数 
如 何 
病 相 
其 他 
优势 


据 集 包 含 了 来 自 世界 4 地 的 病人 临床 生理 测量 数据 和 诊断 结果 ， 用 来 研究 
从 生理 特征 预测 心脏 病 诊断 结果 。 其 中 部 分 临床 特征 已 被 专家 认定 为 是 疾 
关 特 征 , 这 就 为 验证 变量 选择 方法 提供 了 一 个 参照 标准 .实验 结果 表明 , 与 
方法 相 比 ，CE 方法 选择 出 了 最 多 的 疾病 相关 特征 ， 在 预测 性 和 可 解释 性 上 
明显 。 部 分 对 比 结果 见 区 四 . 

CE 为 变量 选择 问题 提供 了 统一 的 理论 框架 。 它 具有 以 下 优点 : 


4 实验 代码 : https://github.com/majianthu/aps2020 
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1 26 31 36 41 46 


(c) dHSIC 


图 1: 三 种 统计 独立 性 度量 选择 的 变量 . 
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。 数学 理论 坚实 ， 
。 物理 上 可 解释 ， 
。 具有 非 参数 估计 算法 ， 不 做 理论 假设 ， 
。 几乎 不 需要 调 参 。 


该 方法 做 变量 选择 是 模型 无 关 的 ， 这 是 与 基于 似 然 函数 的 方法 相 比 ， 方 法 
无 需 考虑 模型 及 其 复杂 度 等 因素 ， 具 有 明显 的 普 适 性 优势 。 作 为 一 种 关联 度量 
TA, CE 与 其 他 度量 工具 相 比 定义 更 坚实 ， 具有 很 多 理想 的 独立 性 度量 公理 属 
性 ， 因 此 也 就 具有 了 明显 的 理论 优势 。 男 外 ， 炉 是 一 种 物理 意义 明确 的 数学 概 
念 ，CE 可 被 认为 是 从 自 变 量 到 目标 变量 的 函数 关系 包含 的 信息 量 ， 因 此 很 容易 
从 物理 上 理解 和 解释 得 到 的 模型 。 在 方法 实现 上 ，CE 的 估计 方法 基于 序数 统计 
i, 是非 参数 的 ,不 做 任何 理论 假设 ， 充 分 发 挥 了 其 理论 优势 。 同 时 ， 其 估计 方 
法 具有 良好 的 渐 近 稳定 性 ， 且 几乎 不 需要 调 参 ， 与 LASSO 等 结果 严重 依赖 超 
参数 选择 的 方法 形成 了 鲜明 对 比 。 总 之 ， 该 方法 具有 理论 和 计算 上 的 明显 优势 ， 
将 变量 选择 问题 变 成 了 一 种 科学 ， 而 不 像 LASSO 等 方法 是 一 门 艺术 。 
生存 分 析 (Survival Analysis) 是 一 类 特殊 的 回归 问题 ， 其 预测 目标 是 事件 
发 生 时 间 (time-to-event), ， 也 即 是 未 来 某 一 事件 发 生 所 需要 的 时 间 。 这 类 问题 
的 特殊 性 还 在 于 一 种 删 失 (Censoring) 机 制 ， 用 于 当 某 一 事件 在 观察 期 未 发 生 
时 的 处 理 。 生 存 分 析 在 医学 、 可 靠 性 和 社会 科学 等 领域 具有 广泛 的 应 用 。 建 立 
生存 分 析 模 型 也 需要 进行 变量 选择 ， 用 于 筛选 与 事件 发 生 时 间 相 关 的 变量 。 马 
健 fe 提出 将 CE 的 变量 选择 方法 应 用 于 此 类 问题 ， 通 过 计算 变量 与 事件 发 生 
时 间 之 间 的 CE 来 选择 变量 。 他 将 方法 应 用 于 两 个 公开 的 肺癌 数据 ， 与 常用 的 
随机 生存 森林 (Random Survival Forest) 和 Lasso-Cox 两 种 方法 进行 了 对 比 ， 
发 现 该 方法 能 够 在 保证 模型 可 解释 性 的 同时 获得 更 好 的 预测 性 能 ， 验 证 了 方法 
ti ciue. 


3.4. 因果 发 现 


因果 关系 普遍 存在 于 自然 界 当中 ， 发 现 因果 关系 是 各 门 科学 的 主要 命题 之 
一 。 从 一 组 随机 变量 的 时 序 观测 中 发 现 变量 之 间 的 因果 关系 ， 被 称 为 因果 发 现 
(Causal Discovery) 问题 ， 是 统计 学 中 时 间 序 列 分 析 的 经 典 问题 。 时 序 因果 关系 
发 现 方法 在 不 同学 科 领 域 都 有 重要 应 用 价值 。 

如 何 度量 因果 关系 是 因果 发 现 问题 解决 的 基础 。 控 制 论 学 者 维 纳 提出 了 一 
种 因果 关系 的 哲学 概念 ， 表 述 为 因 必须 有 助 于 改善 果 的 预测 上 L6 引 。 在 此 理念 基 
础 上 , 格 兰 杰 提出 了 著名 的 格 兰 杰 因果 关系 (Granger Causality: GC) 检验 [163 


5 实验 代码 : https://github.com/majianthu/surviva 


3 理论 应 用 14 


.GC 检验 是 经 典 的 因果 发 现 工具 ,但 它 只 适用 于 高 斯 的 情况 .Schreiber [165] 
定义 了 用 于 发 现 稳 态 时 序 包含 的 因果 关系 的 传递 箭 (Transfer Entropy: TE) Mi 
f. TE 是 GC 的 非 线性 推广 , 等 价 于 信息 论 的 条 件 互信 息 (Conditional Mutual 
Information: CMI) ， 本 质 上 是 检验 条 件 独 立 性 (Conditional Independence) , 
是 模型 无 关 的 ， 因 此 适用 于 任何 情况 的 因果 关系 检验 。 TE 作为 广泛 采用 的 因果 
关系 度量 ， 较 之 其 他 经 验 式 带 有 模型 假设 的 传统 因果 关系 推断 方法 更 科学 合理 ， 
具有 更 广泛 的 普 适 性 。 

CE 是 统计 独立 性 度量 ， 而 TE 是 条 件 独立 性 度量 。 我 们 证 明了 二 者 之 间 在 
数学 上 有 着 本 质 上 的 内 在 理论 联系 也 中 。 通过 并 不 复杂 的 数学 变换 ,可 以 很 容易 
证 明 ，TE 可 以 表示 为 只 包含 CE 的 数学 形式 。 这 一 数学 表示 形式 为 从 CE 估计 
TE 提供 了 理论 基础 。 


命题 1 TE 可 以 表示 为 仅 包含 CE 的 数学 形式 . AX FB YH TEM CE 表示 
如 下 : 
TEx_yY = Ae(Y 141, Y) + A(X, Y;) ED He(Yi+1, Y, Xt). (7) 


因为 TE 本 质 上 是 条 件 独 立 性 关系 You IL XY, 的 度量 ， 因 此 全 也 其 实 是 给 
出 了 一 种 条 件 独立 性 的 CE 表示 。 

在 过 去 的 研究 中 ， 因 果 关 系 的 估计 往往 是 在 一 定 的 假设 前 提 下 进行 ， 无 假 
设 前 提 的 因果 关系 估计 被 很 多 研究 者 认为 是 不 可 能 的 。 我 们 基于 以 上 TE 的 CE 
表示 形式 ， 利 用 非 参数 的 CE 估计 算法 ， 提 出 了 一 种 简单 优雅 、 易 于 理解 和 实 
现 的 非 参 数 TE 估计 方法 外 中 。 这 样 ， 不 带 任何 假设 条 件 的 因果 关系 发 现 就 成 
为 了 可 能 。 此 估计 方法 包含 简单 的 两 步 四 : 


1. 利用 非 参 数 CE 估计 方法 ， 估 计 式 届 中 的 3 个 CE 子 项 ; 
2. 由 3 个 CE 估计 值 计 算得 到 TE。 


为 了 验证 提出 的 非 参 数 TE 估计 方法 ， 我 们 将 该 方法 应 用 于 大 气 污染 问题 

中 的 因果 发 现 , 研究 了 北京 地 区 气象 因素 和 PM2.5 之 间 的 因果 关系 回 实验 采用 
T UCT 机 器 学 习 数据 集 仓库 中 的 北京 PM2.5 数据 [160], LS TALIA 2010 
年 至 2014 年 之 间 的 每 小 时 的 连续 气象 观测 数据 和 PM2.5 观测 数据 。 我 们 的 分 
析 选 择 其 中 一 段 无 缺失 值 的 连续 时 间 数据 记录 ， 利 用 上 述 方法 很 容易 就 可 以 估 
计 出 气象 因素 对 1 至 24 小 时 后 PM2.5 浓度 的 影响 程度 。 利 用 上 述 估计 方法 并 
不 是 无 条 件 的 ， 我 们 默认 假设 了 时 序 是 稳 态 的 ， 也 假设 了 时 间 段 之 间 的 马尔 科 
夫 性 , 也 就 是 不 相 邻 的 时 间 段 之 间 无 关 。 对 24 小 时 内 灌 后 因果 关系 的 分 析 发 现 ， 
温度 、 湿 度 、 压 力 等 气象 因素 对 PM2.5 的 形成 的 因果 关系 是 一 个 由 迅速 增加 到 
缓慢 增强 的 过 程 。 

6 此 方法 已 在 R 和 Python 的 copent 包 (141) 中 实现 。 

7 实验 代码 : 


iba 


= 
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同样 在 上 述 实验 数据 的 基础 上 ， 我 们 将 提出 的 TE 估计 方法 与 另外 两 种 条 
件 独立 性 度量 进行 了 对 比 实验 , 估计 从 气象 因素 到 PM2.5 的 因果 关系 24 小 时 走 
35. 这 两 种 度量 分 别 是 基于 核 函 数 的 条 件 独立 性 度量 (Kernel-based Conditional 
Independence: KCI) [67] 和 条 件 距 离 相 关 (Conditional Distance Correlation: 
CDC) [168]. 论文 通过 将 用 CE 估计 TE 与 其 它 两 种 方法 进行 了 对 比 , 结果 ( 见 
KP) 显示 TE 的 估计 效果 更 好 。 


3.5 ”系统 辨识 


微分 方程 是 描述 动态 系统 的 主要 数学 工具 , 在 不 同学 科 具 有 广泛 的 应 用 。 从 
数据 中 学 习 微 分 方程 是 动态 系统 领域 的 一 个 重要 问题 ， 也 称 系统 辨识 或 方程 发 
现 ， 近 年 来 得 到 了 大 量 的 研究 。 

方程 发 现 问 题 通 常 可 以 被 当 作 一 个 回归 问题 来 对 待 ， 即 从 数据 学 习 一 组 从 
系统 状态 到 状态 微分 的 回归 方程 。 给 定 一 个 一 般 的 动态 系统 微分 方程 形式 ， 如 
F: 


TH = filet) (8) 
其 中 zii 1s N 表示 系统 状态 变量 ， 则 方程 发 现 问题 就 是 从 数据 共识 fi 
SSS f, 需要 确定 该 方程 包含 的 未 知 自 变量 ， 一 旦 自 变 量 确 定 则 方程 的 对 
应 关系 就 知道 了 ， 这 是 典型 的 变量 选择 问题 。 很 多 经 典 回归 模型 方法 被 应 用 到 
此 问题 ， 如 高 斯 过 程 、 基 于 稀 屋 性 的 方法 (如 SINDy) 、 核 函数 方法 和 神经 网 络 
等 


马 健 [15] 提出 了 一 种 基于 CE 的 微分 方程 发 现 方法 ， 将 问题 理解 为 变量 选 
择 问 题 ， 利 用 基于 CE 的 变量 选择 方法 解决 了 此 方程 发 现 问题 。 该 方法 包含 了 
两 个 主要 步 又: 

1. 利用 差分 算 子 近似 计算 状态 变量 的 微分 ; 

2. 计算 状态 微分 和 状态 变量 之 间 的 CE， 根 据 CE 来 选择 方程 的 变量 。 
该 方法 中 的 差分 算 子 可 以 由 以 下 非 参数 方式 计算 得 到 : 


dx Lt, — Vt, 


T=" ae (9) 


而 CE 可 以 由 非 参 数 估计 方法 得 到 。 因 此 ， 所 提出 的 方法 是 非 参数 的 ， 不 做 任 
何 假设 ， 适 用 于 任何 动态 系统 的 辨识 。 

作者 将 方法 应 用 于 经 典 的 3 维 Lorenz 系统 ,系统 中 包含 了 由 一 阶 和 二 阶 的 
状态 变量 组 成 的 3 个 方程， 该 方法 成 功 地 从 仿真 数据 中 辨识 出 了 系统 方程 中 状 
态 变量 和 状态 微分 变量 之 间 的 关系 ， 证 明了 方法 的 有 效 性 


8 实验 代码 : https://github.com/majianthu/sysid 
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: 由 三 种 因果 关系 度量 估计 的 从 压力 到 PM2.5 的 因果 关系 强度 变化 图 . 
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3.6 ”时 延 估 计 


系统 辨识 (System Identification) 是 现代 系统 理论 中 研究 系统 特性 的 重要 
工具 方法 , 主要 是 研究 如 何 从 观测 数据 来 确定 描述 系统 行为 的 模型 及 其 参数 。 时 
延 (Time Lag) 是 一 种 动态 系统 中 普遍 存在 的 特性 ， 指 一 个 变量 作用 于 另 一 个 
变量 需要 的 时 间 。 由 于 物质 、 能 量 或 信息 的 传输 时 间 ， 时 延 存在 于 所 有 物理 、 社 
会 和 生物 系统 中 的 因果 效应 发 生 的 时 间 先 后 关系 上 。 因 此 ， 时 延 参 数 的 估计 是 
重要 的 理论 问题 ， 具 有 广泛 的 应 用 价值 ， 比 如 可 以 用 来 分 析 交 通 系统 中 的 拥堵 
传播 、 太 阳 活 动 对 地 球 系统 的 影响 、 政 策 效应 的 分 析 等 诸多 问题 。 

传统 的 时 延 估计 的 主要 方法 是 基于 时 序 变量 的 自 相 关系 数 ， 但 其 具有 线性 
假设 ， 因 此 作用 范围 十 分 有 限 。 另 一 种 主要 方法 是 时 延 互信 息 (Time-delayed 
MI), 可 以 去 除 线性 假设 的 限制 ,适用 于 具有 非 线性 特性 的 时 序 变 量 。 但 这 两 种 
方法 本 质 上 都 是 对 称 关系 的 度量 ， 而 系统 时 延 由 于 是 因果 关系 的 属性 ， 因 此 是 
非 对 称 的 关系 。TE 作为 一 种 非 对 称 的 因果 关系 度量 ， 量 化 了 从 因 变 量 到 果 变 量 
作用 关系 的 信息 量 ， 因 而 更 适用 于 估计 因果 时 延 特性 。 

动态 系统 的 时 延 可 以 通过 从 时 序数 据 估 计 TE 统计 量 来 进行 估计 ， 但 传统 
的 TE 估计 问题 被 认为 十 分 困难 。 马 健 (Ld) 提出 利用 上 述 基于 CE 的 TE 估计 
方法 来 解决 时 延 估计 问题 ， 先 估计 时 延 窗口 内 的 因 变量 到 果 变 量 的 一 组 TE f, 
再 将 TE 的 最 大 值 对 应 的 时 延 作为 时 延 参 数 的 值 。 由 于 该 TE 估计 器 是 非 参数 
的 ， 因 此 不 对 动态 系统 做 任何 假设 ， 具 有 普 适 性 。 

作者 仿真 了 四 个 具有 不 同 动态 特性 的 时 延 动态 系统 以 验证 方法 的 有 效 性 
发 现 该 方法 可 以 准确 地 从 系统 的 仿真 数据 中 估计 出 相应 的 时 延 参数 。 作 者 又 ; 
方法 应 用 于 摩洛哥 缔 头 万 (Tétouan) 城 的 电力 负荷 数据 ， 分 析 五 种 天 气 因素 
该 城 三 个 区 域 电力 负荷 影响 的 时 延 特征 ， 发 现 了 不 同 天 气 因素 对 负荷 产生 影 
的 时 延长 度 ， 以 及 影响 的 每 日 变化 特征 目 


F 


A X 


= 


= 3.7 ” 域 自 适应 
f^ 
e», 


域 自 适应 (Domain Adaptation: DA) 是 一 类 常见 的 问题 , 是 指 训练 模型 的 
数据 与 应 用 模型 的 数据 的 概率 分 布 不 同时 ， 需 要 让 训练 的 模型 适应 分 布 的 偏 移 
的 情况 。DA 问题 具有 重要 的 现实 意义 。 比 如 ,将 在 一 个 医院 采集 的 数据 上 训练 
好 的 模型 应 用 到 其 他 医院 时 ， 可 能 由 于 数据 采集 设备 的 不 同 导 致 采集 的 数据 发 
生 分 布 偏 移 ， 从 而 导致 模型 性 能 下 降 。 同 样 的 情况 也 会 发 生 在 其 他 领域 (如 社会 
学 ) 的 问题 中 ,比如 由 于 人 群 的 社会 属性 的 不 同 , 由 一 个 人 群 研究 得 到 的 模型 结 
论 在 为 一 个 人 群 上 就 会 发 生 模型 偏差 。 
基于 CE 的 条 件 独立 性 度量 作为 一 种 基本 的 统计 学 工具 , 可 以 用 于 解决 DA 
问题 。 马 健 [ni] 提出 了 一 种 从 因果 角度 解决 DA 问题 的 方法 。 他 假设 自 变量 X 
到 预测 变量 Y 在 不 同 域 D; 上 的 关系 是 不 变 的 ， 将 数据 分 布 迁移 视 为 一 个 由 外 


9 实验 代码 : https://github.com/majianthu/timelag 
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在 条 件 变 量 Z 在 Di 上 作用 不 同 导致 的 结果 ， 这 样 DA 问题 就 转化 为 学 习 自 变 
TEX. PESE Y 和 外 在 变量 Z 之 间 统 计 关 系 的 问题 ,需要 发 现 X,Y 之 间 不 
变 的 依赖 关系 ， 二 者 的 依赖 关系 以 外 在 变量 为 条 件 ， 即 判断 是 否 


X PY|Z. (10) 


这 时 ， 利 用 基于 CE 的 条 件 独 立 性 测试 就 能 发 现 域 迁 移 条 件 2 背后 的 X A Y 
之 间 不 变 的 因果 关系 ， 从 而 很 好 地 解决 了 DA 问题 。 

作者 设计 了 仿真 实验 验证 了 方法 的 有 效 性 ， 并 将 方法 成 功 应 用 于 社会 学 的 
男女 收入 不 平等 的 社会 原因 分 析 问题 时 。 


3.8 正 态 性 检验 


正 态 分 布 是 一 类 非常 重要 的 概率 分 布 函数 ， 在 所 有 概率 函数 中 居于 中 心地 
位 ， 且 在 实际 问题 中 大 量 存在 。 正 态 性 是 很 多 统计 模型 和 方法 中 的 假设 条 件 ， 
因此 在 应 用 中 检验 分 布 正 态 性 的 方法 成 为 了 一 个 十 分 必要 的 工具 。 正 态 性 检验 
(Normality Test) 是 一 类 检验 分 布 正 态 性 假设 的 假设 检验 方法 ， 分 为 单 变量 和 
多 变量 两 类 。 传统 的 正 态 性 检验 方法 很 多 ， 比 如 基于 算 、 特 征 函 数 、 炉 或 最 优 传 
输 等 概念 工具 的 方法 等 。 

CE 作为 衡量 变量 间 全 阶 次 相关 关系 的 度量 工具 , 也 可 以 用 于 检验 二 阶 相关 
特性 的 正 态 性 检验 问题 。 我们 都 知道 , 根据 最 大 粹 原理 , 在 二 阶 统 计量 相同 的 情 
况 下 ， 在 所 有 分 布 中 正 态 分 布 的 炉 最 大 。 由 于 正 态 分 布 完 全 由 其 一 阶 和 二 阶 统 
计量 决定 ， 因 此 正 态 分 布 的 CE 中 包含 的 是 二 阶 相关 性 对 应 的 信息 。 可 以 很 容 
易 推 导 ,， 在 正 态 分 布 的 条 件 下 ，CE 与 二 阶 统计 量具 有 等 价 关 系 。 具 体 地 ， 假 设 
高 斯 随机 向 量 X 的 协 方差 为 V, WH CE 与 V. 之 间 存 在 如 下 关系 : 


1 
He(xn) = 3 log |4. (11) 


而 在 非 正 态 分 布 中 , 相关 关系 不 仅 是 二 阶 的 , 也 有 高 阶 的 , 因而 CE 包含 的 信息 
除了 二 阶 相关 关系 对 应 的 信息 外 ， 也 有 高 阶 相关 关系 对 应 的 信息 ， 且 非 高 斯 性 
BRIR, CE 中 高 阶 相关 的 信息 越 多 。 同 时 ， 由 于 粹 是 全 阶 次 的 信息 量 ， 因 此 CE 
度量 了 包括 二 阶 相关 信息 在 内 的 全 部 阶 次 相关 性 信息 。 

马 健 [12] 利用 高 斯 分 布 的 CE 与 二 阶 统计 量 之 间 等 价 关系 提出 了 一 种 多 变 
量 正 态 性 检验 的 方法 ， 通 过 计算 分 布 与 同方 差 的 高 斯 分 布 在 CE 统计 量 的 差 值 
来 衡量 联合 分 布 的 正 态 性 ， 由 此 得 到 的 正 态 性 检验 的 统计 量 定义 为 


Tee = H.(x) = H.(xn), (12) 


HF, x 是 与 x 具有 相同 方差 的 高 斯 随机 向 量 。 易 知 ， 当 分 布 为 高 斯 分 布 时 
Tee = 0; 且 多 元 分 布 的 非 高 斯 性 越 强 ，7ce 的 数值 越 大 。 


10 实 验 代码 : https://github.com/majianthu/cda 
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马 健 同 时 给 出 了 此 统计 量 的 估计 方法 , 包括 了 十 分 简单 的 两 部 分 : st (p 
第 一 项 可 以 由 CE 的 非 参 数 估计 方法 得 到 ,第 二 项 即 是 式 册 小 的 值 , 可 先 估计 协 
方差 矩阵 V, 再 解析 计算 得 到 。 

作者 设计 了 两 组 仿真 实验 ， 仿 真 了 两 类 非 高 斯 性 的 情况 ， 并 将 此 检验 方法 
与 5 种 经 典 的 同类 方法 进行 了 对 比 ， 证 明了 此 检验 方法 的 有 效 性 和 对 传统 5 种 
经 典 方法 的 优越 性 四 。 


3.9 双 样 本 检验 


双 样 本 检验 (Two-sample test) 是 统计 学 中 另 一 类 重要 的 假设 检验 方法 ,用 
于 测试 两 组 样本 是 否 来 自 同 一 个 分 布 函数 。 很 多 统计 学 的 理论 方法 可 以 转化 成 
双 样 本 检验 问题 ， 如 对 称 性 测试 就 可 以 转化 成 检验 对 称 变换 的 样本 是 否 同 分 布 
的 问题 ， 又 如 变 点 检测 (Change Point Detection) 其 实 就 是 寻找 一 组 双 样 本 检 
测 中 样本 间 差 异 最 大 的 点 。 同时, 双 样 本 检验 又 具有 广泛 的 应 用 价值 ， 比 如 可 以 
检测 临床 治疗 、 政 策 实施 等 人 为 干预 前 后 目标 变量 是 否 发 生 了 变化 等 。 常 见 的 
双 样 本 检验 方法 很 多 ， 如 双 样 本 T 检验 ，K-S 检验 和 基于 核 函 数 的 检验 等 。 但 
这 些 方法 都 有 各 自 的 不 足 之 处 ， 比 如 T 检验 需要 正 态 分 布 假设 ，K-S 检验 只 能 
作用 于 单 变 量 情况 ， 而 核 函数 方法 需要 超 参 数 的 调试 等 。 

马 健 外 3 引 提出 了 一 种 基于 CE 的 双 样 本 检验 方法 , 思想 是 基于 样本 与 检验 标 
注 之 间 的 相关 性 程度 来 定义 检验 统计 量 。 给 定 两 组 样本 Xo = {X01,… ,Xom} ~ 
Po 和 Xi ={X ,Xi 一 万， 该 检验 的 零 假 设 为 


Ho: Po = Fr, (13) 


对 立 假设 为 
Hi : Po z Py. (14) 
来 定义 : 


Tee = H.(X, Yo) — He(X,Y1). (15) 


Bil, 4 Ho 为 真 时 , Toe 较 小 ; 而 当 Hy 为 真 时 ， 则 较 大 。 作 者 给 出 了 基于 CE 
非 参 数 估计 的 统计 量 估 计 方法 。 因 此, 该 检验 方法 是 多 变量 非 参 数 检验 ，, LER 
调 参 。 作 者 在 3 组 由 正 态 分 布 和 正 态 Copula 仿真 的 数据 上 验证 该 方法 的 有 效 
性 ， 并 将 方法 与 基于 MI、 核 函数 和 dCor 的 三 种 多 变量 非 参 数 检验 方法 进行 了 
对 比 ， 发 现 该 方法 有 效 检 验 了 仿真 实验 中 的 双 样 本 假设 ， 与 同类 方法 相 比 具有 
同等 或 更 好 的 检验 性 能 四。 
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4.1. 理论 应 用 之 间 的 联系 


以 上 介绍 的 CE 的 前 四 个 理论 应 用 之 间 有 着 内 在 的 联系 。 从 理论 基础 上 讲 ， 
它们 都 是 基于 CE 对 统计 独立 和 条 件 独立 的 度量 的 理论 框架 ， 学 习 某 种 内 在 的 
统计 关系 , 这 是 共同 点 。 区别 在 于 这 四 个 应 用 研究 的 关系 不 同 , 以 及 关联 结构 的 
表示 方式 不 同 。 关 联 发 现 问题 主要 关注 成 对 变量 之 间 的 静态 的 统计 相关 ， 表 示 
为 相关 矩阵 的 形式 ; 结构 学 习 则 关注 一 组 变量 之 间 整 体 的 关联 结构 ， 表 示 为 图 
的 形式 ; 变量 选择 的 目的 是 要 建立 一 个 多 对 一 的 关联 结构 ， 最 终 要 表示 为 函数 
的 形式 ; 时 序 因果 发 现 是 动态 系统 中 的 因果 关系 ， 它 也 可 以 构建 表示 变量 之 间 
因果 关系 的 有 向 图 结构 ， 也 可 以 用 来 进行 变量 选择 ， 构 建 时 序 预测 的 函数 关系 
模型 。 

ALZ, FH CE 度量 统计 独立 和 条 件 独立 关系 ， 可 以 估计 随机 变量 之 间 的 
相关 性 和 因果 性 关系 强度 ， 进 而 通过 相关 或 因果 关系 发 现 表 示 成 基本 的 矩阵 形 
式 ， 通 过 结构 学 习 生 成 直观 的 无 向 或 有 向 图 的 形式 ， 或 者 通过 变量 选择 构造 具 
有 预测 能 力 的 静态 或 动态 时 序 的 函数 模型 的 形式 。 


4.2 ”相关 性 和 因果 性 


相关 性 和 因果 性 是 统计 学 中 的 两 个 基础 性 概念 ， 对 应 于 概率 论 中 的 统计 独 
立 和 条 件 独立 。 统 计 独 立 和 条 件 独立 是 两 个 不 同 的 概念 ， 但 又 有 着 内 在 的 联系 。 
我 们 通过 CE 的 概念 ， 给 出 二 者 之 间 的 内 在 联系 的 理论 框架 ， 以 及 在 此 理论 框 
架 基础 上 的 估计 方法 。 
前 者 可 以 用 CE 来 衡量 。CE 是 一 个 完美 的 衡量 统计 独立 性 /相关 性 的 数学 
念 ， 具 有 很 多 数学 家 梦 寨 以 求 的 独立 性 度量 的 公理 属性 。 它 等 价 于 信息 论 中 
的 MI 概念 。 后 者 可 以 用 TE 来 衡量 。TE 等 价 于 条 件 MI。 我 们 证 明了 TE 可 
以 用 CE 来 表示 。 也 就 是 说 , 条 件 独立 可 以 通过 统计 独立 来 表示 和 计算 。 因此 二 
者 之 间 具 有 内 在 的 理论 联系 。 后 者 可 以 用 TE 来 衡量 。TE 等 价 于 条 件 MI。 因 
此 ， 二 者 之 间 具 有 内 在 的 理论 联系 。 
相关 性 不 等 于 因果 性 ， 二 者 是 不 同 的 概念 ， 但 人 们 有 时 却 很 容易 误 把 二 者 
等 同 起 来 。 举 一 个 我 们 做 的 时 序 因果 发 现 的 研究 [10] 作为 例子 加 以 说 明 。 论文 
给 出 了 一 种 利用 CE 来 估计 TE 的 算法 ， 并 采用 了 一 个 环境 气象 的 数据 来 验证 
TE 估计 算法 上 中。 数据 是 北京 的 PM2.5 观测 数据 ， 以 及 同时 观测 到 的 北京 地 
区 气象 数据 。 论文 实验 分 析 了 气象 因素 (温度 、 露 点 、 气 压 和 风速 等 ) 对 PM2.5 
浓度 的 因果 强度 ， 用 从 时 序 观测 数据 中 估计 的 TE 来 衡量 ， 发 现 了 二 者 之 间 的 
因果 关系 变化 规律 。 
这 里 要 强调 的 是 论文 的 讨论 部 分 。 我 们 讨论 对 比 了 时 序 相 关 性 和 时 序 因果 
性 ， 发 现 即 使 是 气象 因素 和 PM2.5 浓度 之 间 相关 性 微弱 的 情况 下 ， 二 者 之 间 仍 
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图 3: 对 温度 到 PM2.5 的 TE 变化 的 分 解 . 


然 有 时 滞 因 果 关 系 。 论 文 以 温度 因素 为 例 cab), 对 此 做 了 说 明 。 子 图 (a) 和 
(c) 分 别 对 应 TE 和 CE， 也 就 是 因果 性 和 相关 性 。 我 们 可 以 发 现 ， 相 关 性 强度 
几乎 为 0, 而 因果 性 强度 依然 很 高 。 

我 们 认为 ， 这 一 分 析 结 果 是 由 时 序 观测 的 对 象 系统 的 动态 性 造成 的 ， 气 象 
因素 对 PM2.5 浓度 变化 的 影响 不 是 即时 的 , 而 是 由 于 大 气 系统 的 内 部 运动 过 程 ， 
有 一 个 潍 后 的 效应 所 致 。 此 时 ,时序 变 量 之 间 没 有 即时 的 相关 关系 , 但 存在 时 沛 
的 因果 关系 。 


4.3 三 种 理论 框架 的 对 比 

TE 估计 方法 将 统计 独立 性 度量 CE 用 于 条 件 独 立 性 的 度量 TE. 的 表示 
和 估计 。 从 而 ， 我 们 就 提出 了 一 个 基于 CE 概念 ， 能 够 度量 独立 性 和 条 件 独立 
性 两 个 基本 概念 的 理论 框架 。 与 此 类 似 ， 核 函数 的 方法 (154, 167] 和 距离 相关 的 
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表 1: 三 种 统计 独立 性 度量 的 对 比 . 


CE DC HSIC 
定义 基于 Copula 函数 相关 性 的 非 线性 扩展 核 函 数 空间 的 相关 性 
多 变量 是 distance multivariance dHSIC 
独立 性 测试 是 total distance multivariance | 需要 满足 核 函 数 条 件 
条 件 独立 性 测试 TE CDC KCI 
不 变性 单调 变换 不 变 线性 变换 不 变 无 
Pearson 相关 高 斯 性 假设 下 等 价 高 斯 性 假设 下 等 价 未 知 
计算 复杂 度 O(n?) O(n*) O(n*) 
方法 也 56 [Les] 也 可 以 应 用 到 这 两 个 概念 的 度量 问题 上 ， 也 分 别 构成 了 类 似 的 理 


论 框架 。 但 基于 CE 的 理论 框架 更 优越 ， 理 论 上 ，CE 的 定义 更 严格 ; 计算 上 ， 
O 基于 CE 的 估计 方法 也 更 简单 优雅 ， 普 遍 适 用 ， 且 计算 量 相对 要 小 。 
= dr ERU sel |t He T SAS EE, RIDUERSU CE 具有 多 方面 的 理 
论 优势 。 比 如 ，CE 天 然 的 是 一 个 多 变量 的 度量 ， 而 其 他 二 者 需要 通过 扩展 定义 
来 满足 多 变量 的 情况 ; CE 具有 单调 变换 不 变性 和 在 高 斯 条 件 下 与 相关 系数 等 
价 等 属性 ， 而 DC 也 具有 类 似 的 等 价 关系 也 5 中 ，HSIC 则 未 知 。 在 计算 成 本 上 ， 
CE 计算 复杂 度 低 ， 而 其 他 二 者 则 具有 较 高 的 计算 复杂 度 。 

在 变量 选择 和 因果 发 现 两 个 理论 应 用 中 ， 我 们 利用 真实 数据 对 比 三 种 框架 
中 的 相应 方法 。 实 验 结果 也 表明 了 CE 框架 的 (条 件 ) 独立 性 度量 工具 均 优 于 其 
他 两 个 框架 中 的 相应 的 工具 ， 能 够 更 高 效 、 准 确 地 发 现 更 多 的 相关 或 因果 关系 。 


4.4 ”独立 性 和 条 件 独立 性 度量 的 评估 


独立 性 和 条 件 独立 性 是 概率 统计 领域 的 基本 概念 ， 具 有 基础 性 的 重要 地 位 。 
从 统计 学 初期 的 皮尔 逊 相关 系数 开始 ， 如 何 度 量 这 两 种 统计 学 的 概念 就 一 直 是 
本 学 科 关 注 的 焦点 问题 , 有 大 量 的 度量 方法 根据 不 同 的 思想 或 原则 被 提出 来 。 这 
= 其 中 ， 就 包括 上 述 的 CE 等 三 种 理论 框架 的 方法 。 
"E 那么 哪 一 种 方法 是 最 理想 的 度量 呢 ? 理论 上 , 为 了 回答 此 问题 , Rényi [169] 
曾经 提出 了 著名 的 独立 性 度量 的 公理 系统 , 包括 了 7 条 公理 。 Schweizer 和 Wolff 
[L70] 在 提出 他 们 基于 Copula 的 度量 时 ， 对 Rényi 的 公理 系统 又 做 了 修正 。 
如 何 从 实验 的 角度 评估 对 比 这 些 度量 方法 是 一 个 重要 的 问题 。 马 健 业 7 BE 
计 了 一 组 仿真 实验 图 ， 对 现 有 的 16 种 独立 性 度量 和 16 种 条 件 独立 性 度量 方法 
分 别 进 行 了 对 比 (度量 方 法 及 实现 见 表 团 ， 仿 真实 验 考虑 了 线性 / 非 线性 、 高 斯 
性 / 非 高 斯 性 、 单 变量 /多 变量 等 多 种 不 同 角度 的 组 合 。 同 时 ， 作 者 也 在 3 组 实 
际 数据 上 对 上 述 度量 的 性 能 进行 了 对 比 。 结 果 表 明 ， 基 于 CE 的 独立 性 和 条 件 
独立 性 度量 在 所 有 情况 中 都 表现 了 最 好 的 性 能 ， 给 出 了 最 合理 的 度量 估计 值 。 
Eh, 从 理论 的 角度 来 看 ，CE 具有 比 其 他 度量 方法 更 坚实 的 数学 基础 和 性 
良好 的 通用 非 参 数 估计 方法 ; 从 仿真 和 实际 数据 实验 的 结果 来 看 ，CE 在 实验 


13 实 验 代码 : https://github.com/majianthu/eva 
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R 2: 评估 的 独立 性 和 条 件 独立 性 度量 方法 及 其 软件 实现 . 


算法 包 独立 性 度量 条 件 独立 性 度量 | 语言 
copent CE TE/CI [10] R 
stats Ktau R 
energy dCor R 
dHSIC dHSIC R 
HHG HHG R 
independence Hoeff [159),BDta R 
Ball Ball [161 R 
qad QAD R 
BET BET R 
MixedIndTests Mixed [175) R 
subcopem2D subcopula [176] R 
EDMeasure MDM [177] CMDM [178] R 
FOCI CODEC [179 CODEC [180] R 
NNS NNS | R 
RCIT R 
cdcsis R 
GeneralisedCovarianceMeasure R 
weightedGCM R 
KPC R 
ppcor R 
parCopCITest R 
causallearn Python 
pycit Python 
knncmi Python 
fcit Python 
CCIT Python 
peit Python 
上 展现 了 全 面 且 最 好 的 估计 结果 。 因 此 ， 作 者 认为 CE 理论 给 出 了 最 为 理想 的 


独立 性 和 条 件 独立 性 度量 。 


5 ”实际 应 用 
5.1 理论 物理 学 


热力 学 是 一 门 古老 的 理论 物理 学 分 支 , 在 19 世纪 由 克 劳 修 斯 、 波 尔 兹 曼 和 


吉 布 斯 等 人 建立 , 研究 物理 系统 的 宏观 状态 (如 温度 ) 与 其 微观 状态 之 间 的 理论 


联系 。 炉 和 热力 学 第 二 定律 是 其 最 为 核心 的 理论 内 容 。 香 农 的 信息 论 就 是 受热 
力学 的 箭 概念 启发 而 建立 的 。 一 直 以 来 ， 热 力学 和 信息 论 之 间 的 理论 联系 就 是 
相关 领域 的 重要 话题 之 一 。CE 是 从 信息 论 领域 提出 的 数学 概念 ， 它 的 物理 意义 


和 解释 一 直 未 得 到 研究 。 马 健 [16] 将 CE 理论 应 月 
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的 推导 和 计算 ， 给 出 了 CE 的 热力 学 解释 ， 建 立 了 热力 学 和 信息 论 之 间 的 又 一 
理论 联系 。 


5.2 理论 化 学 


变 构 效应 (Allostery) 被 认为 “生命 的 第 二 秘密 ”, 是 普遍 存在 于 几乎 所 有 和 蛋 
白质 的 生命 现象 。 它 是 指 变 构 调节 分 子 与 蛋白 质 结 合 , 诱导 结合 位 点 以 外 的 远 点 
发 生变 化 的 调节 效应 。 最 常见 的 变 构 系 统 模 型 是 变 构 二 状态 模型 ， 描 述 了 变 构 
过 程 的 热力 学 循环 。 此 类 模型 假设 了 受 体 活化 是 二 状态 过 程 , 这 与 NMR 实验 揭 
示 的 多 模 态 过 程 不 相符 合 。 深 入 理解 配 体 诱导 的 受 体 活化 的 分 子 机 制 需要 构建 
新 的 理论 来 理解 配 体 结合 点 和 激活 点 之 间 的 热力 学 耦合 关系 。Cuendet 等 
提出 了 一 种 新 的 理论 ， 称 为 变 构 景 观 (Allostery Landscape) ， 定 义 了 热力 学 耦 
合 函 数 来 量化 生物 分 子 系统 中 的 热力 学 耦合 。 他 们 指出 新 函数 与 copula 密度 函 
数 和 CE 有 密切 联系 ，CE 定义 了 变 构 系统 的 信息 传输 属性 ， 即 配 体 结合 点 和 激 
活 点 之 间 的 信息 传输 。 他 们 将 新 理论 应 用 到 丙 氨 酸 二 肽 的 N 端 和 C. 端的 热力 学 
耦合 分 析 中 。 


5.3 ”化 学 信息 学 


化 学 信息 学 是 化 学 和 信息 学 科 的 交叉 学 科 ， 通 过 表征 化 学 结构 为 数据 ， 解 
决 诸如 分 子 设计 、 化 学 反应 模拟 和 规划 等 问题 。 定 量 构 效 是 该 领域 的 前 沿 问题 ， 
研究 分 子 结构 与 分 子 理化 性 质 之 间 的 定量 关系 ， 以 指导 具有 指定 特性 的 分 子 设 
计 , 应 用 广泛 。 分 子 理化 特性 可 以 理解 为 分 子 结构 的 某 种 对 称 变换 不 变性 , 而 从 
数据 学 习 得 到 这 种 不 变性 变换 是 分 子 设计 的 关键 目标 。Wieser 等 [L8] 将 对 称 变 
换 学 习 问 题 转化 为 信息 瓶颈 (Information Bottleneck) 问题 ， 提 出 了 一 种 对 称 
变换 信息 瓶颈 (Symmetry-Transformation Information Bottleneck: STIB) Jy 
法 。 该 方法 将 分 子 表征 表示 为 由 两 个 部 分 组 成 的 隐 含 表示 ， 其 中 一 个 部 分 对 应 
不 变性 表示 ， 基 于 MI (CE) 的 变换 不 变性 ， 设 计 了 问题 模型 的 学 习 算法 。 作 者 
将 算法 应 用 于 包含 13.4 万 有 机 分 子 的 QMO 数据 库 耻 9 引 ， 使 用 其 中 具有 固定 化 
学 计量 (C7O2H10) 的 6095 个 分 子 的 子 集 ， 并 将 其 对 应 的 带 隙 能 量 和 极 性 作为 
目标 不 变性 属性 。 实 验 结果 表明 ，STIB 方法 给 出 了 能 够 学 习 出 表征 分 子 属性 、 
带 隙 能 量 和 极 性 不 变性 的 对 称 变换 ， 验 证 了 方法 的 有 效 性 。 


[t 


5.4 材料 学 


耐 热 型 合 能 材料 是 指 具 有 高 能 量 和 高 热 稳 定性 的 特殊 材料 ， 可 以 在 高 温 的 
环境 下 保持 稳定 性 质 ， 因 此 是 国防 、 航 空 航天 和 地 质 勘探 等 重点 领域 的 关键 性 
材料 ， 如 宇航 和 高 超 音速 武器 的 推进 燃料 、 深 井 销 探 的 炸药 等 。 但 此 类 材料 数 
量 稀少 上 且 实 验 研 究 具 有 极 高 危险 性 ， 因 此 设计 此 类 材料 是 材料 学 家 们 一 直 努 力 
攻克 的 挑战 性 难题 。“ 从 头 设计 ” 含 能 材料 需要 经 历 “ 设 计 -筛选 -评估 ”的 流程 ， 
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其 中 采用 机 器 学 习 的 方法 构建 材料 结构 -性 质 预 测 模型 对 设计 的 分 子 性 质 进 
测 是 材料 分 子 筛选 的 关键 步 又 。 传 统 的 含 能 分 子 性 质 预测 模型 构建 过 程 只 
了 与 热 稳定 性 线性 相关 的 分 子 特 征 ， 没 有 考虑 与 含 能 材料 热 分 解 温 度 具 有 非 线 
性 关系 的 因素 ， 如 晶体 结构 和 堆积 方式 等 。 田 杰 [L9] 提出 了 一 种 结合 皮尔 逊 相 
关系 数 和 CE 的 特征 选择 方法 ， 从 分 子 拓扑 结构 和 量子 化 学 计算 特征 中 选择 与 
热 分 解 温度 具有 相关 性 的 特征 ， 并 构建 预测 模型 。 其 中 ，CE 方法 的 引入 是 为 了 
第 选 和 热 分 解 温 度 具 有 非 线性 关系 的 特征 。 他 收集 了 460 个 含 能 化 合 物 ， 并 生 
成 了 包含 286 个 特征 的 数据 集 ， 并 应 用 该 方法 筛选 得 到 了 87 个 特征 ， 再 将 筛选 
的 特征 做 为 随机 森林 和 SVM 等 模型 的 输入 以 预测 化 合 物 的 热 分 解 温度 ， 最 终 
得 到 了 较 传统 方法 更 好 的 预测 效果 ， 交 叉 验 证 实验 的 预测 误差 控制 在 了 28.5°C。 
他 们 将 方法 应 用 于 自己 设计 的 分 子 生 成 带 生 成 的 分 子 ， RAME 16 RAR 
好 热 稳 定 潜能 且 爆 麦 能 力 很 强 的 含 能 分 子 ， 验 证 了 方法 的 实用 价值 。 


5.5 水 文学 


洪水 是 主要 自然 灾害 之 一 ， 洪 水 预报 是 降低 洪水 损失 和 管理 洪水 资源 的 重 
要 手段 。 基 于 降水 数据 的 降水 量 -径流 量 模型 可 以 用 来 预报 一 段 时 间 后 的 洪水 。 
但 是 ， 水 系统 具有 复杂 性 和 非 线性 的 特点 ， 导 致 建立 这 样 的 模型 时 选择 正确 的 
模型 输入 十 分 困难 。 陈 驯 等 bo bz] 提出 利用 CE 的 方法 来 选择 输入 并 建立 神经 
网 络 预 报 模 型 。 相 比 于 传统 的 方法 , 基于 CE 的 方法 可 以 建立 高 维 模型 且 对 单个 
变量 的 边缘 分 布 不 做 假设 ， 同 时 由 CE 来 估计 降水 量 和 径流 量 的 数量 关系 的 误 
差 更 小 。 陈 囊 等 将 方法 应 用 于 建立 金沙 江 流 域 的 洪水 预报 模型 ， 结 果 显 示 利 用 
CE 选择 输入 的 神经 网 络 模型 取得 了 最 好 的 预测 效果 。Li 等 3] 基于 CE 和 机 
器 学 习 方 法 研究 了 长 江上 游 的 月 径流 预报 问题 。 他 们 利用 130 个 全 球 环流 指数 、 
7 个 气象 因子 和 高 场 和 寸 滩 两 个 水 文 站 的 月 径流 量 数据 ， 采 用 CE 等 3 种 变量 
选择 方法 和 5 种 机 器 学 习 模型 进行 组 合 构建 预测 模型 。 结 果 表 明 ，CE 和 LSTM 
组 合 在 高 场 站 获得 了 最 优 预 测 性 能 ， 而 随机 森林 和 CE 组 合 在 寸 滩 站 获得 了 满 
意 性 能 。Mo 等 PA 提出 了 一 种 长 期 径流 预报 模型 框架 , 结合 了 CE. LSTM 和 
GARCH 三 种 方法 ， 其 中 CE 用 于 筛选 与 径流 有 关 的 预报 因子 。 与 传统 方法 相 
比 ，CE 更 适合 因子 间 具有 交互 关联 的 复杂 情况 。 他 们 将 方法 应 用 于 洪 泽 湖 和 骆 
马 湖 的 径流 预报 研究 ， 结 果 表 明 ， 与 传统 方法 相 比 ， 该 框架 中 的 CE 方法 不 仅 
成 功 辨别 了 因子 间 的 交互 效应 ， 同 时 还 量化 了 每 个 预报 期 内 各 个 因子 的 贡献 度 ， 
从 而 选 出 了 与 预报 有 关 的 关键 驱动 因子 ， 最 终 该 方法 框架 得 到 了 较 对 比方 法 更 
准确 、 更 稳定 且 更 可 靠 的 预报 结果 。 

干旱 是 另 一 类 重要 的 水 文 事件 和 影响 重大 的 自然 灾害 之 一 。 频 发 的 干旱 严 
重 影响 着 我 国 的 经 济 社会 安全 ， 特 别 是 黄河 流域 的 干旱 威胁 尤其 严重 ， 迫 切 需 
要 开展 流域 干旱 驱动 和 预测 的 研究 。 温 云 亮 等 [ps] 利用 CE 理论 分 析 了 河南 省 
1951-2014 年 逐 月 气象 数据 ， 发 现在 众多 驱动 因子 中 ， 降 水 量 、 气 温 、 水 气压 
和 相对 湿度 对 该 地 区 干旱 发 生 的 影响 最 大 。Huang 和 Zhang B6] 利用 CE 方法 
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分 析 了 兰州 地 区 1957-2010 年 的 气象 数据 ， 以 构建 该 地 区 的 干旱 预测 模型 ， 发 


现 该 地 区 的 风速 、 


T [27] 人 研究 了 黄河 流域 的 气象 、 


气温 、 水 气压 和 相对 湿度 是 与 干旱 最 相关 的 气象 因子 。 呐 春 


水 文 和 干旱 之 间 的 关系 ， 探 讨 了 干旱 的 驱动 机 


动态 非 线 性 响应 关系 ， 通 过 


制 ， 给 出 了 气象 干旱 和 水 文 干旱 的 概念 ， 并 提出 利用 CE 方法 探究 二 者 之 间 的 
过 分 析 黄 河流 域 不 同 区 域 水 文 站 的 气象 和 水 文 干 旱 指 


数 ， 得 到 了 水 文 干旱 对 气象 干旱 的 汪 后 效应 时 间 ， 为 应 对 干旱 事件 提供 了 参考 。 


Ni 等 Ps] 利 


用 MI 和 CE 之 | 


的 等 价 关系 ， 提 出 了 基于 MI H Copula 结 


构 选择 方法 ， 


并 应 用 于 黄河 流域 干旱 识别 中 特征 变量 建 模 问题 和 多 水 文 站 流量 


相关 结构 建 模 问题 中 。Kanthavel 等 [9] 利用 CE IHE copula 等 理论 工具 ， 提 


出 了 一 种 综合 干旱 指数 ， 


整合 了 标准 化 降雨 指数 、 和 干旱 监测 指数 、 标 准 化 土壤 


湿度 指数 和 标准 化 径流 干旱 指数 等 四 种 指数 ， 可 以 更 好 地 同时 反映 相关 水 文 气 
象 变量 和 不 同类 型 的 干旱 。CE 理论 被 用 来 衡量 新 指数 与 原始 指数 之 间 的 相关 


性 。 他 们 将 该 指数 应 用 
度 的 干旱 研究 中 ， 验 证 了 该 
点 。Mohammadi 等 Bo) 利 月 利 


法 ,在 伊朗 三 座 城市 〈 扎 黑 丹 、 
据 的 基础 上 , 分 析 了 三 地 的 干旱 变量 (干旱 强度 、 时 长 和 时 间 间 隔 ) 之 间 的 依赖 


关系 。 


于 印度 中 部 的 达 布 蒂 (Tapti) 河流 域 的 单 月 和 四 个 月 尺 
首 数 的 有 效 性 ， 并 揭示 了 该 地 区 干旱 的 时 空 分 布 特 


用 基于 copula 和 CE 理论 的 三 种 相关 性 度量 估计 方 


恩泽 利和 马 什 哈 德 ) 1950-2017 年 的 水 文 观测 数 


水 文 气象 观测 网 络 是 获取 水 文 信息 的 基础 设施 。 如 何 设计 并 优化 网 络 站 点 


是 一 个 综合 性 的 科学 和 工程 问题 


个 基本 的 设计 原则 是 观测 站 点 之 间 尽 量 统 


计 独立 ， 这 样 才 和 角 ER LA RUN MI 是 衡量 统计 独立 性 的 主 
要 工具 ， 但 是 其 计算 是 一 个 难题 。Xu 等 Bilbo) 提出 了 一 个 基于 CE 的 多 目标 


优化 的 水 文 观测 网 络 设计 方法 ， 
分 组 ; 2) 对 每 个 分 组 选择 最 优 


包括 两 步 : D 基于 于 CE 的 信息 传输 将 观测 站 点 
的 站 点 组 合 。 基 于 CE 的 计算 方法 不 仅 能 够 处 理 


水 文 变量 的 非 高 斯 性 ， 同 时 在 计算 性 能 上 也 更 可 靠 、 更 有 效率 。 作 者 将 方法 应 


用 于 黄河 流域 伊 洛 河 水 文 观测 


网 络 和 上 海 雨 量 观测 网 络 的 设计 。 结 果 显 示 ，CE 


的 方法 计算 精度 更 高 ， 


a diu 。 同 样 基于 最 少 重 


ze eu UI, Li 等 Bala) 提出 了 一 个 由 两 个 子 目标 构成 的 网 络 优化 目标 ， 其 
中 一 个 子 目 标 基于 CE 而 设计 ， 


FUN eM 
表明 了 方法 可 靠 


| 网、 北京 市 区 以 及 太湖 盆地 的 雨量 观测 网 的 设计 和 优化 ， 结 果 
且 有 效 。 徐 鹏 程 等 [B3 Bo] HEAL FARE Copula 来 构建 站 点 关系 


用 于 衡量 元 余 信 息 量 。 作 者 将 此 方法 分 别 应 用 


网 络 ， 再 基于 估计 的 蕨 Copula 来 计算 站 点 间 的 CE (E, 在 此 基础 上 提出 了 结合 


CE AKEE 


指标 的 站 点 优化 目标 ,利用 滑动 窗口 法 选择 优化 站 点 。 他 们 基于 淮 


河流 域 1992-2018 年 的 日 降水 量 


Rt 
网 络 更 有 效 地 获取 降水 相关 信息 。 


观测 数据 ， 利 用 该 方法 对 该 流域 43 个 雨量 观测 


， 结 果 表 明 该 方法 得 到 的 网 络 能 够 较 传统 类 似 方法 得 到 的 


杨 异 岁 BA 提出 一 个 结合 联合 粹 比 、 元 余 度 


比 和 NSE 效率 系数 的 站 网 优化 准则 ， 并 基于 CE 理论 提出 了 新 的 MI 计算 方 


法 ， 提 高 了 计算 的 准确 性 。 他 将 方法 应 用 于 美国 查 克 托 哈 奇 (Choctawhatchee) 


202105.00070v16 
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河流 域 的 14 个 水 文 站 点 ,进行 站 点 优化 研究 ， 最终 得 到 了 只 包含 5 个 站 点 的 网 
络 ， 提 高 了 站 网 的 监测 效率 。 

分 析 河流 的 干流 和 支流 之 间 的 相关 性 对 水 利 工程 设计 、 洪 水 预防 和 风险 防 
控 十 分 重要 。 三 峡 大 坝 作 为 长 江上 游 河 段 的 大 型 水 利 工程 ， 其 一 个 重要 功能 就 
是 洪水 控制 ， 研 究 该 河 段 的 主要 河流 相关 性 对 工程 设计 和 安全 运行 具有 重要 参 
考 价值 Chen 和 Guo [B8] 提出 利用 CE 来 计算 河流 相关 性 的 强度 ,他 们 将 方法 
应 用 于 包含 了 5 条 主要 干支 流 的 长 江上 游 河 段 ， 基 于 干支 流 1951-2007 年 间 的 
洪水 记录 数据 计算 河流 间 的 相关 性 。 他 们 发 现 河流 之 间 总 的 相关 性 并 不 高 ， 这 
与 该 地 区 的 气候 特征 相符 ; 相关 关系 最 强 的 是 岷江 和 沱江 ， 这 是 由 于 二 者 距离 
最 近 , 且 属 于 同一 降水 区 域 ; 金沙 江 和 岷江 、 沱 江 之 间 具有 -一定 的 相关 性 ， 对 三 
峡 大 坝 的 洪水 控制 构成 了 一 定 的 威胁 ; 金沙 江 、 嘉陵 江 、 岷 江 和 沱江 对 长 江 盆地 
的 洪水 发 生 具有 显著 影响 。 

不 同 河流 和 区 域 的 洪水 事件 天 加 易于 形成 复合 洪水 事件 ， 但 不 同 洪水 过 程 
之 间 的 空间 关系 很 难 利用 现 有 相关 性 分 析 方法 来 准确 地 描述 和 评估 。Wang 和 
Shen B9) 提出 了 一 个 整合 基 copula 和 相关 性 评估 的 方法 框架 ， 其 中 利用 了 CE 
理论 从 芯 Copula 来 估计 MI, CMI 和 R 统计 量 等 相关 性 强度 。 他 们 将 方法 用 
于 评估 长 江上 游 已 鉴别 的 102 个 复合 洪水 事件 中 两 种 极端 径流 序列 变量 (洪峰 
流量 和 洪水 流量 ) 之 间 的 关系 。 结 果 表 明 ， 该 框架 的 多 维 ROBE copula 模型 能 够 
更 好 地 描绘 复杂 多 样 的 水 文 相关 关系 ， 特 别 是 芯 结 构 表示 了 支流 洪水 汇 入 干流 
的 顺序 和 水 文 站 之 间 的 空间 位 置 关系 ; 该 框架 估计 的 三 种 相关 性 强度 比 传统 的 
相关 性 强度 更 好 地 反映 了 复杂 时 空 水 文系 统 的 复合 洪水 事件 中 的 非 线性 关系 。 
黄河 水 沙 调控 关系 到 黄河 治理 的 策略 制定 ， 科 学 认 知 评估 黄河 的 水 沙 通 量 
变化 特征 是 基础 性 的 科学 问题 ， 对 研判 黄河 泥 沙 情势 具有 重要 意义 。 特 别 是 近 
几 十 年 来 ， 受 气候 变化 和 人 类 活动 的 释 加 影响 ， 黄 河水 沙 含量 发 生 了 显著 变化 ， 
需要 准确 估计 径流 量 和 输 沙 量 的 分 布 变化 情况 。Copula 函数 是 分 析 这 种 分 布 的 
基本 数学 工具 ， 但 此 类 问题 往往 观测 样本 较 少 ， 难 以 准确 估计 Copula 函数 的 
参数 。Qian 等 [10] 提出 了 一 种 基于 CE 和 全 相关 (Total Correlation) 关系 的 
Copula 参数 估计 方法 ， 用 于 解决 在 样本 较 少 的 情况 下 的 Copula 参数 估计 问题 。 
他 们 将 方法 应 用 于 黄河 西柳 沟 河流 域 1960-2016 年 间 年 度 径流 量 和 输 沙 量 的 数 
据 的 分 析 ， 该 流域 在 1999 年 前 后 水 沙 关系 发 生 了 显著 变化 ， 但 数据 较 少 。 分 析 
结果 发 现 ， 对 于 1999 年 前 后 的 两 个 时 段 ， 新 方法 均 得 到 比 两 种 传统 方法 更 准确 
的 Copula 参数 估计 ， 对 数据 的 拟 合 更 好 。 

流域 分 区 是 水 文学 研究 的 重要 方法 ， 根 据 水 文 相似 性 特征 划分 流域 内 相似 
性 区 域 ， 可 解决 无 水 文 观测 地 区 的 水 文 计算 等 难点 问题 。 径 流 响 应 是 重要 的 流 
域 水 文 特征 ， 根 据 流域 水 文 站 点 观测 之 间 的 相似 性 做 流域 分 区 是 一 种 基本 的 研 
究 路 径 。 传 统 的 流域 分 区 方法 基于 相关 性 评价 ， 往 往 难以 反映 水 文系 统 内 在 的 
复杂 关系 。 刘 磊 等 Lu] 提出 采用 基于 CE 的 R 统计 量 来 衡量 节点 间 的 径流 相似 
性 ， 再 在 此 基础 上 利用 社团 检测 算法 对 流域 进行 分 区 。 他 们 将 方法 应 用 于 郡 阳 
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湖水 系 ， 利 用 该 流域 的 水 文 站 观测 对 流域 进行 了 分 区 ， 并 将 方法 与 传统 的 均 
值 聚 类 方法 进行 了 对 比 。 结 果 表 明 ， 该 方法 能 够 有 效 捕 提 流域 内 湖 库 对 径流 的 
调节 作用 ， 从 而 得 到 较 传统 方法 更 合理 的 流域 分 区 。 

多 站 点 径流 生成 是 随机 水 文学 的 主要 问题 之 一 ， 生 成 的 流量 信息 对 任何 水 
资源 管理 都 是 必 不 可 少 的 。 在 径流 数据 记录 有 限 的 情况 下 ， 生 成 多 站 点 径流 数 
据 十 分 必要 ， 需 要 设计 相应 的 数据 生成 模型 。Porto 等 [42] 提出 了 结合 广义 线 
性 模型 (GLM) 和 Copula 函数 的 多 站 点 年 度 径流 生成 模型 ， 前 者 表示 时 序 结 
构 ， 后 者 为 多 站 点 的 空间 相关 性 建 模 。 在 评价 模型 性 能 时 ， 作 者 采用 了 包括 CE 
在 内 的 多 个 统计 描述 性 指标 ， 其 中 CE 用 来 衡量 非 线性 的 全 关联 。 作 者 将 该 模 
型 用 于 生成 巴西 的 雅 瓜 里 比 (Jaguaribe) -大 都 市 水 库 系 统 的 多 站 径流 时 序数 据 ， 
结果 显示 模型 表现 出 了 优 于 当前 最 好 水 平 的 性 能 ， 特 别 是 在 衡量 多 站 相关 性 的 
CE 指标 上 ， 较 其 他 模型 更 接近 于 历史 观测 数据 。 

南水北调 工程 是 当今 世界 最 大 的 水 利 工程 ， 承 担 着 从 长 江 的 汉江 流域 丹 江 
口水 库 向 北方 地 区 城市 调 水 的 战略 任务 。 准 确 的 人 库 径流 预报 是 科学 合理 的 供 
水 调度 的 前 提 条 件 ， 能 够 使 工程 更 充分 高 效 地 利用 自然 界 的 水 资源 。 但 传统 方 
法 构建 的 预报 模型 很 难 满足 调 水 预报 精度 的 要 求 ， 原 因 在 于 传统 分 析 方法 不 能 
处 理 水 文系 统 的 非 线性 特性 ， 导 致 了 构建 的 入 库 径流 预报 模型 不 合理 从 而 预测 
性 能 不 高 。 黄 朝 君 等 ds] 构建 了 丹江口 水 库 的 月 人 库 径 流 预 报 模型 ， 利 用 CE 
选择 了 一 组 气象 水 文 因子 作为 模型 的 输入 ， 得 到 的 模型 具有 明显 优 于 传统 模型 
的 预报 性 能 。 模 型 成 功 的 原因 在 于 采用 CE 选择 的 预报 因子 与 中 长 期 入 库 径流 
密切 相关 ， 印 证 了 印度 洋 偶 极 子 事件 和 南海 副 高 活动 与 汉江 流域 夏季 强 降水 之 
间 的 内 在 联系 ， 符 合 自然 界 水 文系 统 的 运行 规律 。 


5.6 ”气候 学 


气候 变化 是 气候 学 研究 的 课题 之 一 ， 它 不 仅 体现 在 水 文 气候 变量 幅度 上 的 
变化 ， 也 体现 在 变量 的 季节 和 周期 变化 的 分 布 上 。 这 种 变化 会 对 降水 和 气温 的 
强度 和 频率 造成 影响 ， 导 致 极端 天 气 (如 洪水 、 干 旱 和 热浪 等 ) 的 增加 。 降 水 和 
气温 的 相关 性 会 加 剧 联 合 极端 天 气 的 发 生 和 强度 。 研 究 气候 变化 对 降水 和 气温 
相关 结构 的 影响 是 一 个 重要 的 问题 。Hao 和 Singh (4) 利用 CE 度量 工具 研究 
了 气候 变化 对 这 种 相关 结构 的 影响 。 研 究 采 用 了 美国 德 克 萨 斯 州 达拉斯 市 沃 其 
f (Fort Worth) 在 1948-2010 年 间 的 每 日 降水 和 和 气温 数据 ， 以 每 5 年 为 期 计 
算 温度 和 降水 之 间 的 负 CE 值 作为 相关 结构 强度 ， 发 现 该 地 区 的 温度 和 降水 之 
间 的 相关 结构 强度 ( 负 CE fH) 从 1948-1980 年 间 的 0.18 下 降 到 了 1948-2005 
年 间 的 0.06， 说 明了 气候 变化 对 该 地 区 水 文 气候 变量 之 间 关 系 造成 了 影响 。 
气候 评估 是 科学 应 对 气候 变化 的 基础 性 工作 ， 其 目标 是 监测 和 分 析 全 球 和 
地 区 气候 及 其 变化 ， 特 别 关 注 于 变化 趋势 和 极端 气候 风险 等 。 气 候 分 类 是 指 根 
据 相 似 气 候 特征 将 地 区 分 类 ， 最 常见 的 Köppen 分 类 法 采用 的 气候 特征 是 温度 
模式 和 季节 性 降水 。Condino [45] 提出 了 一 种 基于 Jensen-Shannon 距离 的 动态 
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分 类 算法 , 其 中 基于 JS 距离 的 分 类 准则 采用 了 基于 CE 理论 的 表示 方法 并 进行 
估计 。 他 将 方法 应 用 于 欧洲 气候 评 佑 问题， 根据 1951-2008 年 间 欧 洲 气 象 观测 
站 每 日 温度 和 降水 数据 对 欧洲 25 座 主要 城市 的 气候 进行 分 类 。 结 果 表 明 ， 其 提 
出 的 算法 成 功 区 分 了 分 别 属于 欧洲 南部 和 北部 气候 带 的 城市 群 ， 当 进一步 考虑 
南北 气候 过 渡 带 时 ， 算 法 也 得 到 了 与 欧洲 实际 气候 情况 相符 的 合理 的 分 类 结 


5.7 气象 学 


环境 污染 是 现代 社会 的 主要 问题 之 一 。 从 气象 学 的 角度 分 析 大 气 污染 的 成 
因 ， 明 晰 其 内 在 机 理 ， 有 助 于 更 好 的 理解 污染 问题 ， 进 而 预测 、 干 预 和 管理 污 
染 。 理 解 大 气 系统 中 的 因果 关系 是 问题 的 关键 。 基 于 对 气象 因素 和 环境 污染 物 
的 观测 ， 可 以 利用 统计 学 中 的 TE 方法 分 析 气 象 因素 对 环境 污染 的 因果 关系 。 马 
健 [10] 利用 其 提出 的 基于 CE 的 TE 估计 方法 ( 见 B. 由 ， 分 析 了 北京 地 区 的 气 
象 和 PM2.5 连续 观测 数据 也 6@， 得 到 了 四 个 气象 因素 对 PM2.5 浓度 的 24 小 
时 时 滞 内 的 因果 强度 变化 图 ( 见 图 财 。 变 化 图 显示 ， 四 种 气象 因素 对 PM2.5 浓 
度 的 因果 强度 大 致 经 历 快速 升 高 和 缓慢 增加 两 个 阶段 。 作 者 还 特别 讨论 和 验证 
了 该 方法 的 平稳 性 假设 和 马尔 科 夫 性 假设 在 此 中 尺度 数值 分 析 问题 上 的 适用 性 。 
论文 所 得 到 的 因果 变化 图 反映 了 大 气 系统 运动 的 内 在 动态 特征 ， 增 加 了 人 们 对 
PM2.5 污染 的 气象 成 因 的 理解 。 同 时 ， 得 到 的 时 序 因果 关系 也 为 整合 气象 因素 ， 
构建 更 优 性 能 的 污染 预报 模型 提供 了 参考 依据 。( 更 多 内 容 见 B.4 节 ) 

有 效 的 大 气 污染 预测 对 于 污染 防 控 具 有 基础 性 作用 ， 也 利于 保护 居民 健康 。 
但 当前 的 大 气 污染 (如 PM2.5 浓度 ) 预测 在 准确 性 和 稳定 性 上 还 很 难 满足 要 求 。 
开发 性 能 更 高 的 预测 模型 受到 了 广泛 的 关注 。 在 综合 考虑 了 传统 方法 的 不 足 的 
Al E, Wang 等 [10] 提出 了 一 种 新 的 大 气 污染 预测 预警 方法 , 使 用 了 CE 和 多 
种 机 器 学 习 模 型 的 组 合 方法 ，CE 方法 在 其 中 被 用 来 选择 对 PM2.5 浓度 波动 有 
影响 的 因子 ， 以 用 于 构建 最 终 模型 。 他 们 将 开发 的 方法 应 用 于 上 海 和 广州 两 地 
的 实际 大 气 污染 预测 预警 系统 ， 结 果 表 明 新 方法 能 得 到 较 其 他 对 比方 法 更 好 的 
预测 准确 性 和 稳定 性 。Wu 等 lr] 提出 了 一 种 基于 CE 的 PM2.5 预测 方法 ， 利 
用 CE 计算 气象 因素 与 大 气 污染 物 浓度 之 间 的 相关 性 来 选取 模型 输入 特征 ， 在 
基于 LSTM 和 进化 算法 相 结合 的 方法 建立 预测 模型 。 该 方法 在 北京 地 区 2016 
年 的 历史 数据 上 取得 了 良好 的 预测 性 能 。 

全 球 气候 变 暖 导致 我 国 华南 地 区 的 台风 强度 越 来 越 强 ， 强 台风 给 该 地 区 造 
成 了 严重 的 损失 。 根 据 台风 灾害 的 观测 数据 预测 灾情 程度 ， 是 台风 灾害 的 研判 
和 应 对 的 重要 参考 。 但 台风 灾害 影响 因子 较 多 ， 且 与 灾情 之 间 具 有 非 线 性 关系 ， 
给 预测 模型 构建 造成 困难 。 陈 燕 吏 等 Ws) 基于 CE 等 工具 ， 提 出 了 一 种 台风 灾 
天 预测 模型 构造 方法 。 他 们 基于 1985-2014 年 间 登 陆 或 影响 广西 的 44 个 台风 灾 
害 数据 ， 以 及 同期 与 致 灾 、 承 灾 和 防 灾 减 灾 相关 的 灾情 统计 数据 ， 构 建 了 21 个 
灾害 影响 因子 ， 再 利用 CE 筛选 与 灾情 指数 最 相关 的 因子 ， 发 现 最 大 风速 、 最 
低 气 压 、 暴雨 时 长 和 暴雨 极 值 与 灾情 指数 最 相关 ,能够 客观 地 反映 实际 情况 。 实 
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图 4: 四 种 气象 因素 到 PM2.5 浓度 的 24 小 时 时 浪 内 因果 强度 变化 图 . 
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验 也 表明 ， 利 用 CE 筛选 的 因子 构建 的 模型 的 预测 精度 要 高 于 同类 对 比方 法 构 
建 的 模型 ， 可 为 广西 台风 灾情 预测 提供 参考 。 


5.8 ”环境 学 

大 气 污染 是 现代 城市 面临 的 主要 环境 问题 之 一 ， 严 重 影响 城市 运行 和 居民 
生活 。 对 大 气 污染 扩散 规律 的 分 析 是 环境 科学 的 重要 问题 ， 对 环境 监管 部 门 更 
好 地 了 解 污 染 规律 并 有 效应 对 具有 基础 性 的 指导 作用 。 大 量 的 城市 污染 气象 观 
测 网 点 生成 的 数据 , 有 助 于 分 析 扩 散 规律 进而 对 污染 扩散 作出 预测 。 吴 京 鹏 
提出 了 一 种 节点 无 特征 网 络 链 路 预测 算法 ， 并 将 其 应 用 于 城市 大 气 污染 传播 路 
径 建 横 和 预测 问题 。 他 将 方法 应 用 于 兰州 市 辖区 环境 监测 站 网 2017 年 的 PM2.5 
观测 数据 ， 利 用 基于 CE 的 TE 算法 构建 了 传播 网 络 ， 再 应 用 提出 的 网 络 链 路 
预测 算法 预测 污染 传播 路 径 。 实 验 结果 表明 ， 该 方法 可 以 准确 发 现 污染 传播 路 
径 ， 为 兰州 城市 污染 治理 策略 制定 提供 了 理论 支撑 。 

UL (NOx) 是 火力 发 电厂 排放 的 主要 污染 物 之 一 ， 需 要 通过 实施 监测 
来 严格 管控 其 排放 浓度 。 电 厂 一 般 采 用 SCR 脱 硝 反应 器 的 中 和 方法 控制 NOx 
排放 浓度 , 但 控制 过 程 存在 大 延迟 , 无 法 做 到 精确 控制 ,一 般 采 用 软 测量 模型 预 
测 与 SCR 控制 器 配合 来 达成 控制 目标 。 金 秀 章 等 [DO] 提出 了 一 种 VMD-Bayes- 
Lasso 相 结合 的 软 测量 算法 框架 ， 以 预测 NOx 排放 浓度 。 该 方法 框架 首先 利用 
CE 筛选 与 NOx 浓度 相关 的 系统 变量 , 以 预测 分 解 后 的 NOx 浓度 模 态 变量 , 再 
秋 加 得 到 最 终 预 测 结果 ， 最 后 设计 了 基于 Lasso 算法 的 模型 误差 预测 模型 来 校 
正 预 测 结果 。 他 们 在 宁夏 某 660MW 燃 煤 电厂 的 数据 上 验证 了 该 算法 框架 ， 得 
到 了 较 对 比方 法 更 好 的 预测 精度 ， 其 中 ， 通 过 CE 方法 分 析 了 系统 变量 内 部 以 
及 和 目标 变量 之 间 的 相关 度 ， 达 到 了 精简 模型 和 提高 预测 精度 的 目的 。 


IE 


5.9 生态 学 


在 生态 学 中 ， 动 物 运动 轨迹 研究 是 一 个 重要 的 基本 问题 ， 可 以 揭示 种 群 活 
动 规律 、 种 群 间 的 竞争 关系 ， 以 及 种 群 和 环境 资源 之 间 的 互动 等 基本 生态 学 过 
程 。 信 息 技术 在 生态 领域 的 利用 生成 了 大 量 的 动物 轨迹 数据 ， 对 这 些 数据 的 分 
析 需 要 合理 的 建 模 方法 。 环 线 数据 (circular-linear data) 是 生态 学 中 的 一 种 党 
见 的 时 序数 据 类 型 ， 描 述 了 离散 化 的 动物 运动 过 程 ， 包 括 运动 方向 和 运动 距离 
两 个 变量 。 此 二 变量 之 间 通 常 是 相关 的 ， 即 直线 运动 时 运动 方向 较 小 而 运动 距 
离 较 大 ， 转 向 运动 时 运动 方向 较 大 而 运动 距离 较 小 ， 同 时 运动 方向 变量 的 分 布 
一 般 是 对 称 的 ， 因 此 通常 采用 角度 对 称 的 环线 copula 函数 作为 工具 对 此 类 数据 
进行 建 模 ， 并 利用 基于 copula 的 相关 性 度量 来 衡量 二 者 之 间 的 相关 性 。Hodel 
和 Fleberg [b1] 实现 了 环线 copula 的 建 模 和 分 析 的 算法 工具 包 Cylcop， 其 中 
包含 了 基于 CE 的 互信 息 估计 算法 作为 相关 性 度量 方法 ， 用 于 分 析 动 物 轨迹 数 
据 。 
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5.10 动物 形态 学 


动物 形态 学 是 动物 学 最 古老 的 分 支 ， 研 究 动物 体 的 形态 和 解剖 结构 以 及 其 
在 发 育 和 进化 过 程 中 的 变化 规律 。 作 为 动物 学 的 基础 学 科 ， 形 态 学 的 研究 是 动 
物 分 类 的 基础 ， 比 如 鱼 类 的 形态 分 类 。 由 于 鱼 类 的 外 形 相似 , 对 其 种 类 进行 鉴别 
往往 会 出 现 偏差 , 这 就 需要 研究 鱼 类 结构 形态 之 间 的 相似 性 度量 问题 。 Escolano 
等 [52] 提出 了 一 种 图 形 形 似 度 度量 的 估计 方法 ， 将 图 形 转换 为 多 维 流 形 内 人 向 
量 ， 再 利用 CE 估计 方法 估计 向 量 之 间 的 MI 作为 图 形 相似 度 度量 。 他 们 将 方 
法 应 用 到 GatorBait 海洋 鱼 类 图 形 数据 库 ， 该 数据 库 包含 了 30 个 类 别 的 100 
个 鱼 类 外 形 三 角 网 格 图 形 。 由 于 每 类 对 应 的 是 鱼 类 属 而 不 是 种 ， 因 此 同一 类 别 
间 具 有 形态 差异 ， 给 分 类 造成 困难 。 他 们 利用 新 度量 方法 对 数据 库 中 的 鱼 类 图 
形 进 行 分 类 ， 实 验 表 明 新 的 度量 方法 在 数据 集 上 得 到 了 较 传统 方法 更 好 的 分 类 
性 能 。 

鲍 是 一 类 重要 的 海洋 贝 类 , 具有 较 高 的 营养 价值 和 巨大 的 经 济 价值 . 鲍鱼 的 
形态 学 研究 是 通过 形态 学 变量 的 测量 来 研究 其 生长 过 程 和 种 群 分 布 等 问题 ， 对 
该 类 海洋 资源 的 管理 具有 重要 意义 。Purkayastha 和 Song [53] 提出 了 一 种 新 的 
因果 关系 度量 概念 ， 称 为 非 对 称 MI (AMI), ， 用 于 判断 变量 之 间 因 果 预 测 性 的 
方向 ， 并 基于 CE 理论 给 出 其 快速 且 鲁 棒 的 估计 方法 。 他 们 将 AMI 方法 应 用 于 
UCI 鲍鱼 数据 集 ， 分 析 了 鲍鱼 的 长 度 、 直 径 、 身 高 和 体重 等 形态 学 参数 的 测量 
数据 ， 明 晰 了 鲍鱼 生长 过 程 中 年 龄 与 这 些 变量 之 间 的 因果 关系 规律 。 


5.11 农学 


全 球 变 暖 导致 的 环境 变化 会 直接 影响 粮食 产量 ， 从 而 加 重 世 界 粮 食 安全 问 
题 。 水 稻 是 最 重要 的 谷物 作物 之 一 ， 占 我 国 谷物 产量 的 四 成 左右 ， 对 我 国 的 粮食 
安全 至 关 重 要 。 研 究 气候 变化 如 何 影响 水 稳产 量 并 给 出 对 策 是 关系 到 我 国 粮食 
安全 的 重要 问题 。Zhang 等 [b4] 利用 作物 模型 和 大 气 环 流 模式 研究 了 气候 变化 
对 我 国 南方 (江南 和 华南 ) 两 季 称 生长 和 产量 的 影响 及 对 策 。 研究 采 用 了 DSSAT 
作物 模型 中 的 模拟 水 稻 生 长 和 产量 的 CERES-rice 子 模块 和 CMIP6 中 的 四 种 
大 气 环流 模型 (GCMs) ， 并 利用 CE 和 随机 森林 分 析 各 个 月 份 的 气象 因子 和 作 
物产 量 之 间 的 非 线性 关系 。 他 们 利用 每 个 GCM 的 27 组 数据 驱动 南方 54 个 地 
点 的 水 稻 作 物 模 型 以 得 到 最 终 产 量 , 同时 研究 了 播种 日 期 的 影响 。 研究 发 现 , 气 
象 因子 的 上 升 趋势 会 提前 水 稻 成 熟 期 并 降低 产量 ; 如 果 再 考虑 CO» 作用 ， 早稻 
产量 则 会 增加 ， 而 晚稻 仍 会 减产 ; 根据 CE 计算 结果 ， 两 季 稻 产量 和 CO 浓度 
的 关系 也 是 气象 因子 中 最 强 的 ; 提前 早稻 播种 和 延 后 晚稻 播种 可 能 会 增加 一 定 
的 产量 。 该 研究 的 结论 为 政府 和 农民 应 对 未 来 的 气候 变化 指明 了 路 径 ， 为 采用 
相应 的 适应 性 对 策 提供 了 重要 参考 。 


( ) () LI > 


nn 
UU 


AR t 
IA [d 
1 U p I b 


| 
[: 


J 


0 P 
D 

A 

WW fon 


0 


| 
y 


CN 


Fh 
`u 
mu 


5 实际 应 用 33 


5.12 认 知 神经 学 


认 知 神经 学 通过 分 析 大 脑 活动 的 各 种 模 态 的 观测 数据 ， 理 解 大 脑 作为 信息 
处 理 器 官 ， 对 外 界 刺激 的 表示 、 处 理 和 通讯 的 机 理 。 作 为 一 个 非 线性 的 统计 度 
E, MI 被 认为 是 分 析 大 脑 信号 间 关 联 的 理想 统计 工具 。 但 由 于 MI 的 估计 十 分 
困难 ， 使 其 难以 得 到 广泛 的 应 用 。Ince 等 Bo) 根据 MI 和 CE 之 间 的 等 价 关系 ， 
提出 了 一 种 MI 估计 方法 ， 称 为 高 斯 Copula 互信 息 (Gaussian Copula Mutual 
Information: GCMI). GCMI 方法 利用 了 CE 与 边缘 函数 无 关 的 性 质 ， 首 先 将 
每 个 变量 的 边缘 函数 转化 为 高 斯 函数 ， 从 而 得 到 联合 高 斯 分 布 ， 再 根据 所 得 高 
其 分布 相关 矩阵 与 MI 的 关系 来 计算 MI。 该 方法 简单 方便 ， 且 与 分 布 无 关 。 但 
由 于 从 高 斯 分 布 数 据 计算 MI 是 有 偏差 的 ， 因 此 此 方法 还 需要 进行 校正 纠偏 操 
fe. Ince 等 将 GCMI 与 其 他 MI 估计 方法 进行 了 对 比 ， 并 将 其 应 用 于 分 析 人 脸 
检测 任务 的 EEG 数据 [bo] 和 听觉 语音 刺激 任务 的 MEG 数据 [b]. 在 人 脸 检测 
任务 的 实验 中 ，GCMI 被 用 来 计算 图 像 内 容 与 认 知 响应 之 间 的 关联 强度 ， 并 成 
功 选 出 认识 响应 敏感 区 域 (图 像 中 的 眼睛 部 分 )。 在 听觉 刺激 实验 中 ，Ince 等 研 
究 了 语音 中 的 节奏 特征 对 大 脑 听觉 的 节律 同步 的 影响 。 通 过 对 语音 刺激 的 EEG 
响应 数据 的 分 析 ， 作 者 发 现 了 改变 音节 和 词汇 之 间 的 停顿 会 导致 听觉 delta 带 
同步 的 降低 。 在 此 实验 中 ，GCMI 是 数据 分 析 的 主要 工具 。 

在 GCMI 算法 的 基础 上 ，Combrisson 等 bs] 提出 了 基于 信息 论 的 群体 层 
面 分 析 大 脑 认 知 网 络 的 方法 , 将 非 参 数 的 排列 操作 与 信息 度量 相 结合 , 用 于 分 析 
固定 效果 或 随机 效果 模型 ， 以 适应 多 人 间 和 多 次 任务 间 的 变化 。 他 们 将 方法 应 
用 于 两 个 已 有 研究 的 数据 : 第 一 个 研究 分 析 人 执行 认 知行 为 映射 任务 时 的 MEG 
数据 中 的 高 Gamma 行为 (High Gamma Activity) ， 发 现 了 任务 相关 的 大 脑 网 
络 , 涉及 多 个 运动 区 、 体感 区 和 视觉 皮层 区 域 等 ; 第 二 个 研究 分 析 奖 惩 学 习 任务 
的 前 脑 岛 (anterior Insula) SEEG 数据 ， 发 现 了 奖惩 任务 的 响应 时 延 ， 以 及 奖 
和 惩 响 应 的 显著 差别 。 汪 方 妆 等 [DO] 提出 了 一 种 老年 人 认 知 水 平分 类 方法 ， 首 
先 采 用 GCMI 构建 脑 认 知 网 络 ， 再 利用 GCMI 进行 特征 选择 ， 最 后 利用 SVM 
从 选择 的 脑 网 络 连接 进行 认 知 水 平分 类 。 他 们 将 方法 应 用 于 98 名 葡萄 牙 老 人 的 
静 息 态 fMRI 数据 ， 发 现 提 出 的 方法 能 够 捕捉 数据 中 脑 区 间 的 非 线性 关系 ， 并 
能 够 最 终 得 到 较 同类 方法 更 高 的 分 类 准确 率 。 

语音 理解 是 人 脑 的 主要 认 知 功能 ， 研 究 人 脑 的 神经 活动 对 语音 信息 的 编码 
和 人 解析 是 认 知 神经 学 的 重要 问题 。 语音 包 络 (speech envelope) 包含 了 语音 信号 
中 的 低频 时 序 信息 ， 研 究 表 明 其 可 以 解释 大 部 分 神经 响应 的 变化 过 程 ， 语 音 包 
络 跟踪 就 是 通过 脑 电 图 等 手段 研究 语音 包 络 及 其 神经 响应 之 间 关系 的 问题 。 由 
于 大 脑 的 非 线 性 特征 ， 常 用 的 线性 模型 不 能 很 好 的 表示 这 种 关系 。MI 作为 非 线 
性 关系 度量 工具 ， 被 认为 能 够 捕捉 语音 包 络 和 神经 响应 之 间 的 非 线性 关系 。De 
Clercq “ [60] 利用 根据 CE 理论 构建 的 GCMI 工具 ,基于 两 组 故事 讲述 语音 和 
相应 采集 的 EEG 数据 ， 对比 了 线性 模型 和 MI 分 析 对 大 脑 非 线性 成 分 的 刻画 能 
力 。 实 验 结果 表明 MI 分 析 检 测 到 了 线性 模型 以 外 的 显著 的 非 线性 成 分 ， 证 明 
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了 GCM 是 比 线性 模型 更 适合 于 研究 神经 包 络 跟踪 问题 的 工具 。 作 者 也 实验 验 
证 了 与 传统 的 MI 估计 方法 相 比 ， 基 于 CE 原理 的 GCM TRAER, 
和 适合 多 变量 分 析 等 诸多 优点 。 

建立 神经 信号 之 间 的 因果 关系 对 理解 脑 连接 至 关 重要 ， 因 果 关 系 连 接 反映 
了 在 脑 认 知 过 程 中 脑 网 络 内 部 不 同 区 域 之 间 的 信息 传输 方向 ， 刻 画 了 大 脑 认 知 
过 程 的 脑 区 之 间 动 态 关系 特征 。 相 比 于 传统 的 格 兰 杰 因果 检验 ， 无 模型 假设 的 
TE 更 适合 此 类 因果 分 析 任务 。Redondo 等 [61] 基于 CE 理论 提出 了 一 种 新 的 
TE 概念 ， 称 为 STE (Spectral Transfer Entropy)， 用 于 计算 频 域 滤 波 后 的 时 域 
信号 之 间 的 TE. 与 直接 在 原始 信号 上 计算 TE 相 比 , 在 特定 频 域 上 计算 的 STE 
更 具有 神经 学 意义 的 可 解释 性 。 他 们 将 方法 应 用 于 注意 缺陷 多 动 障碍 (ADHD) 
患者 EEG 信号 的 分 析 ， 利 用 STE 构建 因果 关系 脑 连接 网 络 ， 发 现 了 ADHD 


患者 与 健康 人 之 间 与 注意 力 相 关 的 脑 连接 网 络 连接 的 不 同 。 实 验 结果 表明 ， 健 


> 康 人 在 与 注意 力 和 受 控 记 忆 存 取 相 关 的 9 和 a 频段 表现 出 明显 的 因果 联系 ， 而 
» ADHD 患者 的 脑 网 络 连接 则 主要 在 5 振荡 上 ， 可 解释 为 与 注意 力 缺 隐 有 关 。 


= 5.13 ”运动 神经 学 

i 肌肉 协同 (Muscle Synergy) 是 运动 的 基础 ， 指 人 完成 各 种 动作 时 肌肉 组 合 
e 之 间 时 空 上 的 动作 协同 。 人 体 的 运动 控制 系统 是 一 个 具有 宛 余 自由 度 的 系统 ,一 
A: 般 认 为 神经 系统 通过 运动 基 元 的 组 合 协同 策略 来 完成 一 个 动作 。 运 动 控 制 研究 
e 的 一 个 重要 基本 问题 是 鉴别 运动 控制 中 简化 的 基本 肌肉 协同 策略 。 通 过 分 解 运 
N 动 过 程 的 肌 电 (Electromyographic: EMG) 信号 数据 理解 运动 控制 潜在 的 基本 
> 协同 机 理 是 基本 研究 手段 ， 但 如 何 处 理 信号 中 的 非 线性 是 主要 的 难题 之 一 ， 基 


Y 


于 CE 的 MI 估计 是 处 理 此 难题 的 有 力 工具 。Wu 等 pAb 将 多 元 变 分 模 态 分 
© 解 与 基于 CE 的 MI 相 结合 ， 构 建 了 肌肉 耦合 网 络 模型 ， 基 于 表面 EMG 数据 
= 分 析 了 健康 人 伸手 运动 过 程 中 上 肢 肌 肉 间 的 时 空 协同 ， 成 功 刻画 了 肌肉 耦合 关 
x 系 强度 。Reilly 和 Delis [64] 提出 利用 基于 CE 的 GCMI 来 度量 EMG 信号 之 
间 的 时 空 关联 关系 ， 再 利用 和 矩阵 分 解 的 降 维 方法 来 发 现 EMG 信号 时 空 关 联 中 
的 基本 的 肌肉 协同 模式 。 他 们 采集 了 人 执行 点 到 点 动作 运动 的 EMG 数据 ， 将 
方法 应 用 于 数据 ， 得 到 了 有 生理 学 意义 的 肌肉 协同 时 空 模式 。Zhu 等 [o5] 提出 
了 基于 CE 的 表示 TE， 再 利用 R JH copula 估计 CE 进而 估计 TE。 他 们 将 该 
方法 应 用 于 上 肢 肌 肉 间 耦 合 网 络 的 研究 ， 基 于 疲劳 / 非 疲劳 状态 下 上 肢 肌 肉 运动 
的 SEMG 数据 构建 了 肌肉 耦合 网 络 ， 发 现 疲劳 状态 下 的 肌肉 群 间 灶 合 关系 较 非 
疲劳 状态 逐渐 加 深 。 金 国美 等 (66) 提出 利用 小 波 分 析 和 CE 估计 相 结合 的 方法 ， 
分 析 健康 人 自主 运动 下 的 肌肉 疲劳 状态 的 SEMG 信号 数据 ， 发 现在 肘 关节 届 
运动 中 ， 肌 间 耦 合 强度 在 Beta 与 gamma 频段 最 为 显著 ， 协 同 肌肉 对 耦合 强度 
比 持 抗 肌肉 对 看 合 强度 大 ; 疲劳 后 的 耦合 强度 相对 于 疲劳 前 有 所 增强 。 
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5.14 计算 神经 学 


计算 神经 学 是 利用 计算 理论 和 方法 来 研究 和 理解 神经 系统 的 功能 和 机 理 的 
学 科 ， 研 究 如 何 描述 生物 神经 元 对 信和 号 刺激 的 个 体 和 群体 响应 等 问题 。 神 经 可 
塑性 (neural plasticity) 是 指 神经 元 网 络 对 外 界 刺激 的 适应 性 结构 变化 , 构建 可 
塑性 理论 模型 是 计算 神经 学 关注 的 主要 问题 之 一 。Leugering 和 Pipa [67] 基于 
Copula 理论 提出 了 一 个 神经 元 群体 可 塑性 的 理论 框架 ， 构 建 了 一 种 自 适应 网 络 
模型 ， 可 以 在 未 知 模型 输入 变化 的 情况 下 保持 模型 输出 的 不 变性 ，CE 在 该 框架 
中 用 于 度量 神经 元 群 的 统计 特性 , 衡量 输入 输出 之 间 的 信息 量 。 神经 元 之 间 的 信 
息 传 输 分 析 是 计算 神经 学 的 另 一 个 重要 问题 。 分 析 计 算 神 经 元 之 间 的 信息 传输 
关系 需要 涉及 多 个 神经 元 之 间 的 MI 的 分 解 。 部 分 信息 分 解 (Partial Information 
Decomposition) 就 是 将 MI 分 解 为 协同 (Synergy), TT (Redundancy) 和 独 
特 信 息 (Unique Information) 三 个 部 分 的 理论 。 基 于 CE 理论 和 方法 , Pakman 
等 (63) 提出 了 一 种 估计 独特 信息 的 方法 ， 并 应 用 于 分 析 多 个 神经 元 模型 的 信息 
处 理 。 


5.15 心理 学 


大 脑 是 一 个 分 布 式 的 网 络 系统 。 它 不 仅 控制 身体 ， 改 变 内 部 生理 状态 ， 也 
影响 多 个 高 级 过 程 。 同 时 ， 内 脏 信息 也 时 刻 受到 大 脑 的 监控 ， 也 就 意味 着 内 脏 
过 程 也 会 反映 到 皮层 活动 中 。 内 脏 事件 相关 的 大 脑 活 动 研究 是 一 个 重要 的 话题 。 
植物 神经 系统 中 的 过 程 之 间 相 互 关 联 ， 而 信息 论 则 提供 了 研究 它们 之 间 关 系 的 
工具 。Ravijts [59] 研究 了 四 种 情绪 刺激 特征 ( 效 价 、 唤 醒 、 支 配 和 喜欢 ) 下 心 
跳 诱发 脑 电 位 (HEP) 的 时 间 交 互 近似 估计 问题 。 他 采用 了 用 于 情绪 分 析 的 生 
理 信号 DEAP 数据 集 ， 利 用 基于 CE 的 GCMI 方法 估计 了 MI、 协 同和 宛 余 等 
统计 量 , 用 于 度量 不 同情 绪 刺 激 下 HEP 上 的 时 间 交 互 。 实 验 发 现 了 支配 和 喜欢 
情绪 刺激 下 HEP 上 的 时 间 交 互 现象 ， 第 一 次 揭示 了 情绪 感知 调制 的 HEP 的 时 
序 特性 。 


5.16 系统 生物 学 


系统 生物 学 的 一 个 主要 任务 是 通过 生化 运动 学 模型 ， 人 研究 调控 、 信 号 传导 
和 代谢 过 程 之 间 的 交互 。 建 立 这 样 的 模型 需要 选择 合适 的 模型 输入 变量 ，MI 是 
变量 选择 的 工具 之 一 。 但 常用 的 kNN 的 MI 估计 常常 是 有 偏差 的 ， 需 要 进行 修 
IE. Charzyfiska 和 Gambin [70] 提出 了 偏差 校正 方法 ， 并 发 现 当 利用 MI 和 CE 
之 间 的 关系 估计 MI 时 , 校正 效果 显著 。 作 者 将 方法 应 用 于 受到 广泛 研究 的 p53 
蛋白 和 Mdm2 连接 酶 之 间 的 负 反 馈 环 路 问题 模型 上 ， 结 果 显 示 此 方法 能 够 比 传 
统 的 本 地 敏感 性 分 析 方 法 得 出 更 准确 地 反映 系统 行为 的 模型 输入 输出 关系 的 分 
析 结 果 。 

系统 生物 学 对 分 子 生物 学 数据 分 析 的 主要 目的 之 一 是 建立 复杂 生物 现象 的 
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网 络 和 动态 机 制 ， 以 分 析 生命 组 织 的 功能 和 行为 。MI 在 构建 基因 通路 网 络 的 过 
程 中 发 挥 基础 性 作用 。Farhangmehr 等 [r1] 首次 提出 在 网 络 构建 中 利用 CE 来 
估计 MI。 他 们 将 方法 应 用 于 酵母 细胞 周期 数据 ， 将 分 析 得 到 的 动态 网 络 与 京都 
基因 组 学 百科 数据 库 进行 了 对 照 。 实 验 结果 显示 ， 利 用 CE 来 估计 MI 提高 了 
计算 效率 。 


5.17 生物 信息 学 


生物 信息 学 (Bioinformatics) 是 通过 算法 分 析 基因 数据 (包括 基因 表达 谱 
数据 ) 来 研究 生命 和 疾病 机 理 的 新 兴学 科 。 基 因 表达 谱 是 利用 DNA 微 阵列 技术 


在 基因 分 子 层面 观察 某 一 生命 组 织 动态 得 到 的 数据 ， 从 而 能 够 在 基因 组 水 平 上 
(e 反映 生命 系统 的 各 种 现象 和 机 理 。Wieczorek 和 Roth [72] 提出 了 一 种 研究 时 间 
T 序列 数据 之 间 相互 作用 的 分 析 方法 ， 称 为 因果 压缩 (Causal Compression). 55 
之 传统 的 分 析 全 时 间 序列 之 间 的 因果 关系 不 同 ， 该 方法 研究 了 基于 定向 信息 (Di 


~ rected Information) 分 解 的 时 间 序 列 间 相 互 因果 作用 的 稀 朴 表达 ， 并 据 此 给 出 


li 


e 了 时 序 因果 分 割 和 因果 二 分 图 发 现 两 类 问题 的 解法 。 基 于 CE 与 MI 之 间 的 等 
e 价 性 ， 作 者 证 明了 该 方法 只 与 数据 分 布 的 Copula 密度 函数 有 关 ， 并 据 此 设计 了 
O 求解 方法 。 作 者 将 该 方法 应 用 于 NCBI 数据 库 中 的 人 类 C 型 肝炎 病毒 感染 数据 
e (NCBI/GEO 查询 号 : GSE7123), WIE T BERE T EZ, — IET DERECRURI PL IA 
e 疗 的 重组 丙 型 肝炎 病毒 核心 蛋白 基因 型 1 感染 的 基因 表达 谱 时 序数 据 ， 关 注 了 
C 在 干扰 素 信号 传导 中 具有 重要 交互 角色 的 两 个 基因 : 转录 子 STATI 和 干扰 素 诱 
N 导 抗 病毒 基因 IFIT3， 分 别 生成 了 二 者 在 有 效 救治 和 无 效 救治 病人 内 相互 作用 


的 不 同 。 研 究 发 现 ， 根 据 分 析 结果 ,干扰 素 疗 法 消除 了 大 多 数 有 效 救治 病人 体内 
两 种 基因 之 间 的 关联 ， 而 无 效 救治 病人 体内 的 关联 则 不 受 影响 。 同 时 ， 分 析 表 明 
: 两 种 病人 救治 前 后 二 者 之 间 均 存在 因果 交互 作用 ， 但 对 于 有 效 救治 病人 ， 早 其 
= 的 IFITS 对 后 期 的 STATI 的 影响 更 显著 ， 这 与 已 有 研究 结论 相符 合 。 


s 很 多 疾病 的 发 生 与 基因 结构 变异 有 关 。 拷 贝 数 变 异 (Copy Number Varia- 
O tions: CNVs) 指 长 度 大 于 1kb 的 DNA 片段 的 变异 ， 在 人 类 基因 组 中 大 量 存 


在 。 作 为 重要 的 基因 变异 ，CNVs 包含 了 大 量 DNA 序列 、 疾 病 点 和 功能 单元 ， 
能 为 疾病 研究 提供 线索 。 研 究 表 明 ， 多 种 癌症 的 形成 和 发 展 与 不 同 的 CNVs 有 
关 。 因 此 ， 发 现 不 同 基因 的 CNVs 与 不 同 癌 症 之 间 的 关系 有 助 于 研究 癌症 病因 
和 诊断 方法 。 从 大 量 的 CNVs 的 基因 特征 中 选择 出 与 癌症 相关 的 特征 是 生物 信 
息 学 的 一 个 重要 问题 。Wu 和 Li pArA 提出 了 一 种 基因 选择 方法 ， 称 为 相关 宛 
余 和 交互 分 析 (Correlation Redundancy and Interaction Analysis: CRIA) Jy 
法 ， 根 据 CNVs eS ER RWE, DAA URMED SS. CRIA 方法 利用 了 
CE 的 多 变量 相关 性 特性 ， 设 计 了 基因 特征 交互 强度 度量 ， 用 于 筛选 与 癌症 类 型 
相关 性 强 的 基因 。 他 们 将 该 方法 应 用 于 cBioPortal 的 癌症 基因 组 数据 ， 利 用 了 
其 中 的 6 种 癌症 数据 ， 选 择 出 了 200 个 与 癌症 有 关 的 基因 。 为 了 验证 算法 的 有 
效 性 ， 他 们 基于 亚利桑那 州立 大 学 的 数据 将 方法 与 其 他 8 种 基因 选择 算法 进行 
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了 对 比 ， 结 果 显 示 CRIA 方法 选择 的 基因 能 够 更 准确 地 预测 癌症 类 型 。 


5.18 ”临床 诊断 学 

心脏 病 是 最 常见 的 临床 疾病 之 一 。 医 生 已 经 积累 了 丰富 的 心脏 病 临 床 诊断 
经 验 ， 可 以 通过 各 种 生理 测量 结果 作出 诊断 决策 。 在 此 经 验 基础 上 开发 智能 临 
床 诊断 模型 是 业界 长 期 追求 的 目标 ， 开 发 此 类 模型 的 关键 在 于 选择 一 组 生理 测 
量变 量 来 构建 预测 诊断 模型 。 基 于 著名 的 UCT 心脏 病 数 据 集 [144], ate D] 提 
出 采用 CE 作为 变量 选择 方法 , 用 以 选择 一 组 生理 变量 构建 诊断 模型 。 该 数据 集 
包含 了 来 自 世 界 四 地 真实 的 临床 心脏 病 生 理 测量 和 诊断 数据 ， 其 中 13 个 生理 测 
量变 量 被 医学 专家 认定 为 是 临床 相关 的 。 实 验 结果 表明 ，CE 方法 选择 出 了 13 
个 临床 医生 认定 变量 中 的 11 个 变量 ， 是 对 比方 法 中 最 多 的 ， 从 而 得 到 了 最 好 的 
预测 准确 率 。 同 时 ，CE 方法 还 发 现 了 认定 变量 以 外 其 他 与 诊断 相关 的 变量 , 为 
临床 进一步 检验 提供 了 新 的 参考 。( 更 多 内 容 见 B. 引 

糖尿 病 是 另 一 种 常见 临床 疾病 。 对 糖尿 病人 的 病情 管理 与 临床 诊治 结果 (发 
病 率 和 致死 率 ) 密切 相关 ， 因 此 建立 严格 的 糖尿 病 患者 住院 管理 流程 对 其 安全 
十 分 重要 ， 这 就 需要 对 病情 管理 标准 进行 分 析 研 究 。 为 了 评估 住院 患者 的 救治 
效果 ， 美 国 业界 建立 了 健康 事实 (Health Facts) 数据 集 [193], ST 130 所 
美国 医院 和 救治 网 络 的 糖尿 病 患者 的 数据 。 基 于 该 数据 集 1999 至 2008 年 的 10 
年 间 101,721 名 住院 患者 的 数据 ，Mesiar 和 Sheikhi [75] 利用 CE 变量 选择 方 
法 建立 预测 模型 ， 用 于 从 其 他 49 个 变量 预测 “是 否 已 用 药 ”变量 ， 取 得 了 良好 
的 预测 效果 , 在 仅 选择 使 用 20 个 变量 的 情况 下 就 获得 了 97.2% 的 准确 率 ,增进 
了 对 用 药 相 关 变量 的 认识 ， 构 建 了 合理 用 药 评价 模型 。 

癌症 预后 是 指 基于 癌症 病情 的 临床 表现 和 诊断 结果 ， 对 病情 的 未 来 发 展 进 
行 评估 ， 以 帮助 进一步 的 临床 决策 。 临 床 评估 考虑 的 预后 因子 在 评估 中 至 关 重 
要 ， 但 又 常常 数量 众多 ， 需 要 进行 分 析 选 择 。 比 如 ， 肺 癌 的 预后 因子 就 多 达 百 
种 。 预 后 模型 是 在 预后 因子 的 基础 上 建立 的 病人 风险 预测 模型 ， 是 癌症 治疗 中 
重要 的 临床 工具 。 马 健 [70] 提出 了 一 种 基于 CE 的 生存 分 析 变 量 选 择 方法 ， 并 
将 其 应 用 于 预后 因子 的 选择 问题 ， 以 建立 预测 病人 生存 时 间 的 预后 模型 。 他 基 
于 两 个 公开 的 肺癌 数据 验证 了 该 方法 ， 发 现 其 能 选择 符合 临床 标准 的 预后 因子 ， 
并 获得 较 同 类 方法 更 好 的 预测 模型 ， 在 保证 模型 可 解释 性 的 同时 具有 更 好 的 预 
测 性 能 。 

白内障 是 眼科 的 常见 疾病 , 是 导致 患者 失明 的 最 主要 病因 。 白 内 障 超声 乳化 
手术 (Phacoemulsification) 是 世界 各 国治 疗 白内障 的 首选 手术 治疗 方式 。 尽管 
该 手术 已 十 分 成 熟 ， 但 临床 仍然 可 能 会 导致 术 后 角膜 水 肿 等 并 发 症 ， 从 而 影响 
视力 恢复 并 造成 患者 不 适 。 构 建 基 于 风险 因素 的 角膜 水 肿 风险 预测 模型 在 临床 
十 分 必要 。Luo 等 [r7] 提出 利用 CE 方法 构建 术 后 角膜 水 肿 风险 预测 模型 ， 将 
方法 应 用 于 临床 178 名 患者 的 数据 ， 从 数据 的 17 个 变量 中 筛选 预测 变量 ， 最 终 
将 临床 预测 模型 使 用 的 四 种 变量 (糖尿 病 、 最 佳 矫正 视力 、 晶状体 厚度 和 累积 
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散 能 量 ) 减少 为 两 种 〈 最 佳 矫 正视 力 和 累积 耗 散 能 量 ) ， 且 不 影响 预测 精度 。 结 
果 分 析 表 明 ， 利 用 CE 得 到 的 预测 模型 具有 临床 应 用 价值 ， 可 以 在 保证 预测 性 
能 的 情况 下 减少 预测 需要 收集 的 临床 信息 。 

Sah GM if, (Aortic Regurgitation) 是 一 种 常见 的 心脏 瓣膜 疾病 ,主要 证 
状 是 在 心脏 舒张 期 , 血液 从 主动 脉 回流 到 左 心室 。 主 动脉 办 膜 置换 手术 是 主动 脉 
办 反 流 的 传统 治疗 方式 之 一 。 左 心室 射 血 分 数 (Left Ventricle Ejection Fraction: 
LVEF) 是 一 项 衡量 心脏 功能 的 重要 指标 ， 研 究 其 在 手术 前 后 的 改善 关系 可 以 
为 匆 膜 置换 手术 时 机 选择 和 效果 预测 提供 参考 证 据 。Sunoj 和 Nair [v8] 利用 
survival copula 扩展 了 CE 概念 ， 提 出 了 一 种 称 为 Survival Copula Entropy 
(SCE) 的 新 概念 , 用 于 衡量 生存 函数 相关 变量 之 间 的 依赖 关系 。 他 们 将 SCE 应 
用 于 主动 脉 锥 置换 手术 临床 数据 ， 发 现 了 手术 前 后 LVEF 之 间 的 正 相 关 关 系 。 


— 


5.19 老年 医学 


阿尔 兹 海 默 病 (Alzheimer’s disease, 也 称 痴呆 症 ) 是 老年 人 面 对 的 主要 神经 
退行 性 疾病 之 一 , 临床 表现 为 认 知 能 力 的 过 度 衰退 等 。 早期 得 查 和 诊断 可 以 帮助 
痴呆 症 患 者 和 家 庭 及 早 干预 并 管理 病情 发 展 , 可 以 有 效 提高 病人 生活 质量 , 降低 
家 庭 和 社会 成 本 和 负担。 简易 精神 状态 量 表 (Mini-Mental State Examination: 
MMSE) 是 临床 广泛 采用 的 认 知 能 力 筛 查 工具 之 一 。 马 健 (79) 通过 利用 CE 分 
析 了 手指 扣 击 运动 (finger tapping) 的 特征 和 MMSE 之 间 的 关联 强度 ， 发 现 一 
组 与 MMSE 相关 联 的 特征 ， 包 括 扣 击 频率 (或 扣 击 次 数 或 扣 击 平均 时 间 间 隔 ) 
等 。 在 此 关联 关系 的 基础 上 , 他 们 构建 了 从 手指 扣 击 特征 到 MMSE 的 预测 模型 ， 
取得 了 良好 的 预测 效果 。 此 预测 模型 有 望 用 于 痴呆 证 等 疾病 的 认 知 能 力 筛 查 工 
fer. 
帕 金森 病 (Parkinson's disease: PD) 是 另 一 种 常见 的 神经 退行 性 疾病 , 临床 
表现 为 动作 迟缓 和 运动 功能 障碍 等 症状 。 重 复 经 颅 磁 刺激 (repititive transcranial 
magnetic stimulation: rTMS) 是 利用 脉冲 磁场 作用 于 中 枢 神经 系统 ， 以 改善 生 
理 功能 的 临床 治疗 技术 ， 广 泛 应 用 于 神经 、 精 神 类 疾病 的 治疗 ， 并 在 近年 应 用 
于 PD 康复 治疗 的 研究 中 ， 以 期 缓解 患者 症状 并 改善 运动 功能 。 李 润泽 等 
研究 了 rTMS 对 PD 患者 运动 症状 辅助 治疗 的 神经 调控 机 制 ， 利 用 基于 CE 的 
GCMI 等 方法 分 析 了 rTMS 治疗 前 后 的 EEG 数据 ， 构 建 了 脑 功能 网 络 连接 矩 
阵 并 得 到 3 种 网 络 特征 参数 。 实 验 结果 表明 rTMS 主要 改变 PD 患者 的 beta 
和 gamma 振荡 ， 其 中 运动 皮层 的 相应 变化 可 能 与 运动 功能 改善 有 关 。 

跌倒 是 老年 人 面 对 的 重大 健康 风险 之 一 , 需要 科学 管理 和 及 早 干预 , 跌倒 巴 
测 是 管理 跌倒 风险 的 重要 手段 之 一 。 起 立行 走 试验 (Timed Up and Go: TUG) 
是 一 种 主要 的 跌倒 风险 评估 工具 。 马 健 [Bl] 提出 了 一 种 结合 视频 分 析 和 机 器 学 
习 技术 的 跌倒 风险 预测 方法 。 该 方法 首先 从 老年 人 进行 TUG 测试 的 视频 中 分 
析出 人 体 3D 姿态 信息 , 再 由 一 段 时 间 的 姿态 信息 序列 计算 出 一 组 步 态 特征 , 通 
过 利用 CE 分 析 步 态 特征 和 跌倒 风险 指数 之 间 的 关联 关系 ， 选 择 出 一 组 与 风险 
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关联 的 步 态 特征 (包括 步 幅 、 步 态 速度 和 步 态 速度 的 方差 等 ) ， 最 后 用 此 特征 作 
为 输入 构建 跌倒 风险 的 预测 模型 。 该 方法 在 真实 数据 上 的 实验 显示 了 和 良好 的 预 
测 效 果 。 此 分 析 结 果 也 表明 了 步 态 特征 反映 的 行动 能 力 与 跌倒 风险 之 间 的 内 在 
联系 ， 使 得 模型 具有 临床 意义 的 可 解释 性 。 

在 以 上 两 个 研究 的 基础 上 ， 马 健 [82] 还 利用 CE 对 手指 扣 击 运动 特征 数据 
和 步 态 特征 数据 进行 了 联合 分 析 ， 发 现 了 某 些 手指 运动 特征 与 跌倒 风险 之 间 具 
有 一 定 的 关联 性 。 这 一 发 现 为 首次 发 现 ， 揭 示 了 衰老 过 程 中 认 知 能 力 和 行动 能 
力 之 间 的 关联 ， 提 供 了 科学 实验 证 据 ， 加 深 了 对 衰老 的 生理 特征 的 认识 和 理解 。 


5.20 ”精神 病 学 


抑郁 证 是 一 种 常见 的 情绪 相关 的 心理 精神 障碍 ， 全 世界 约 有 3.5 亿 名 患者 
为 此 病 所 困扰 ,对 其 进行 研究 对 人 类 健康 具有 重要 意义 。 脑 电 图 (EEG) 是 一 种 
非 侵入 式 的 大 脑 活动 电信 号 测量 手段 , 广泛 应 用 于 大 脑 疾病 的 研究 中 。 脑 功能 区 
络 是 在 EEG 信号 基础 上 构建 的 反映 大 脑 活动 的 功能 性 指标 ， 可 采用 MI, HIF 
性 等 多 种 方法 构建 此 类 网 络 。 张 婷 婷 等 BSBA) 提出 基于 相干 性 虚 部 (Imaginary 
part of Coherency) 构建 的 脑 网 络 连通 性 指标 来 研究 抑郁 症 患 者 识别 问题 。 他 们 
利用 CE. Relief 过 滤 等 特征 选择 方法 对 脑 电 网 络 连通 特征 进行 选取 ， 发 现 利用 
CE 和 Relief 过 滤 联 合 得 到 的 相干 性 在 线 反馈 指标 特征 集合 能 够 有 效 区 分 抑 邦 
证 患者 和 健康 人 和 群 。 


5.21 公共 卫生 学 


流行 病 是 公共 卫生 学 的 重要 话题 ， 流 行 病 患 者 的 及 时 诊断 对 控制 流行 病 的 
传播 至 关 重要 。 感染 了 流行 病毒 的 病人 往往 伴 有 发 热 等 症状 , 很 难 与 正常 的 发 执 
病人 进行 区 分 。 目 前 正在 流行 的 新 型 冠状 病毒 患者 就 具有 这 样 的 发 热 症 状 ， 基 
于 临床 数据 开发 能 够 区 分 病毒 感染 者 和 正常 流感 病人 的 技术 成 为 一 个 紧迫 的 问 
M. 然而， 相关 的 症状 有 10 几 种 ， 如 何 选择 合适 的 变量 集合 成 为 研究 成 功 的 关 
键 。Mesiar 和 Sheikhi [75] 基于 CE 变量 选择 方法 , 利用 真实 的 临床 数据 , 分 析 
了 新 冠 患者 诊断 相关 的 19 种 症状 变量 ， 发 现年 龄 、 疲 劳 和 恶心 呕吐 是 最 重要 的 
诊断 变量 ， 可 以 使 诊断 达到 85% 的 诊断 准确 率 ， 如 果 将 诊断 变量 增加 到 15 个 ， 
准确 率 可 以 提高 到 91.4%. 
高 血压 是 全 球 首要 致死 病因 ， 对 人 群 健康 构成 严重 威胁 。 全 基因 组 关联 研 
究 表 明 多 个 基因 与 高 血压 密切 相关 。 已 有 多 个 研究 报道 I 型 细胞 膜 钙 离 子 转运 
酶 基因 (ATP2B1) 与 收缩 压 和 和 舒张 压 相关 联 。 该 基因 有 21 个 CpG 位 点 。 研 
究 该 基因 及 其 CpG 位 点 与 高 血压 的 关系 是 一 个 新 的 重要 问题 。Purkayastha 和 
Song (53) 提出 了 一 种 新 的 非 对 称 可 预测 性 概念 ， 称 为 非 对 称 MI (AMI), ， 并 利 
用 CE 理论 给 出 了 其 估计 方法 。 他们 将 该 方法 应 用 于 ELEMENT 数据 集 ， 分 析 
525 个 年 龄 在 10-18 岁 之 间 的 儿童 的 数据 ， 发 现 ATP2B1 与 舒张 压 相关 联 ， 证 
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实 了 已 有 的 发 现 ; 同时 发 现 该 基因 的 CpG 位 点 CG17564205 与 舒张 压 相关 联 ， 
且 根 据 AMI 判断 ， 舒 张 压 对 该 位 点 具有 预测 性 ， 这 一 新 发 现 表 明 血 压 可 以 改变 


PSI 


5.22 经济 学 


经 济 政策 的 评估 需要 定量 分 析 ， 定 量 分 析 方法 可 以 科学 、 客 观 地 评估 政策 
效果 。Shan 和 Liu [85,86] 提出 了 一 种 可 以 定量 分 析 政策 组 合 效果 的 决策 树 构 
建 方法 ，CE 被 用 来 度量 非 线性 相关 关系 并 构建 决策 树 , 方法 的 思想 是 利用 基于 
CE 定义 的 信息 增益 来 构建 用 以 区 别 不 同 政策 对 象 群体 的 政策 决策 树 , 由 树 的 叶 
子 节点 来 表示 不 同 政策 组 合 对 应 的 群体 划分 。 他 们 将 该 方法 应 用 于 发 展 经 济 学 
领域 ， 评 估 我 国 的 减 贫 政策 效果 ， 研 究 分 析 了 2018 年 由 政府 开展 的 贫困 家 庭 状 
况 普 查 的 问卷 调查 数据 中 四 川 省 的 数据 。 分 析 发 现 ,就业 政策 、 新 收入 来 源 和 是 
否 有 抵押 贷款 是 影响 家 庭 收 入 的 主要 政策 因素 ， 并 揭示 了 这 些 政策 组 合 对 应 的 
不 同 目标 贫困 群体 收入 结构 的 不 同 特征 。 该 方法 在 无 历史 数据 的 情况 下 ， 评 估 
验证 了 减 贫 政策 的 有 效 性 ， 并 发 现 了 更 加 有 效 的 政策 组 合 方案 。 

经 济 学 的 核心 目的 是 发 现 因果 关系 。 传 统 的 经 济 学 依靠 推理 建 模 以 及 基于 
此 的 实验 设计 。 因 果 发 现 是 从 数据 中 发 现 因果 关系 的 方法 ， 将 其 与 经 济 学 理论 
模型 相 结合 是 设计 经 济 学 实验 的 新 路 径 。Bossemeyer [B7] 基于 CE 和 MI 的 关 
系 提出 了 一 种 条 件 独立 性 测试 算法 ， 并 将 其 应 用 于 因果 结构 发 现 的 PC 算法 中 。 
作者 利用 新 PC 算法 研究 了 经 济 学 中 的 议价 理论 ， 研 究 讨价还价 行为 中 互惠 关 
系 的 作用 , 以 及 响应 时 间 在 这 个 过 程 中 的 作用 。 作 者 将 算法 应 用 于 eBay 的 Best 
Offer 平台 数据 ,发 现 交易 双方 让 价 行为 之 间 存 在 关联 ， 印 证 了 互惠 理论 ; 同时 ， 
发 现 了 对 手 还 价 响应 时 间 对 下 一 次 要 价 存在 因果 效应 。 
产业 链 是 指 产业 部 门 之 间 基于 经 济 关系 形成 的 链条 式 关 联 关系 形态 。 产 业 
链 基 于 资源 要 素 分 配 和 专业 化 分 工 等 多 种 因素 构成 上 下 游 关 系 ， 来 进行 价值 互 
换 ， 上 游 企业 向 下 游 提供 产品 和 服务 ， 下游 向 上 游 反 馈 信息 ， 由 此 形成 关联 互动 
关系 。 产 业 链 各 环节 之 间 的 相关 性 分 析 ， 对 产业 布局 管理 和 投资 组 合 设计 具有 
重要 参考 意义 。 书 颖 囊 [BS 基于 CE 概念 ， 提 出 了 pair-copula WS, MF 
度量 多 变量 内 部 的 成 对 相关 关系 。 她 将 该 概念 应 用 于 国内 冀 禽 养殖 产业 链 各 环 
节 之 间 的 相关 性 研究 ， 基 于 该 领域 内 9 家 上 中 下 游 主要 上 市 企业 的 股票 价格 数 
据 ， 运 用 pair-copula MEE T P^ Mp E rp FYZ EARE, EAr Me 
上 游 相关 性 较 强 ,下游 相 关 性 较 弱 ; 无 条 件 相关 性 强 ， 条 件 相关 性 弱 ; 上 中 之 间 
相关 性 强 等 现象 。 

投资 者 情绪 对 财经 市 场 有 着 广泛 而 多 面 的 影响 ， 投 资 者 情绪 分 析 是 经 济 学 
研究 的 重要 问题 之 一 。 由 于 社交 媒 休 和 市 场 关系 整合 ， 投 资 者 情绪 会 在 人 群 和 
国家 间 传播 ， 进 而 形成 传播 网 络 , 使 得 局 部 情绪 波动 得 以 迅速 扩散 ,造成 系统 性 
影响 。Han 和 Zhou [B9] 提出 了 一 个 基于 小 波 分 析 、 传 递 精 和 网 络 分 析 组 合 的 方 
法 ， 研 究 公司 间 投资 者 情绪 传播 的 模式 ， 其 中 采用 了 基于 CE KEARNEY 
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法 。 他 们 采用 2015-2021 年 间 的 中 国 137 家 新 能 源 汽车 上 


引 数 据 来 代表 投资 者 情绪 ， 将 其 月 
建 情绪 传播 网 络 ， 最 后 月 


投资 者 情绪 表现 为 短期 局 部 活跃 ， 并 具有 连续 且 逐 渐 增 长 的 
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管理 学 


41 


和 公司 的 百度 搜索 索 


小 波 分 析 分 解 为 多 尺度 信息 ， 再 用 传递 炉 构 
网 络 分 析 的 方法 分 析 短 期 和 长 期 传播 特征 。 他 们 发 现 ， 


进化 模式 。 


准确 预测 农产品 期 货 价格 有 助 于 为 政府 相关 部 门 的 科学 决策 提供 参考 ， 


而 对 保障 国家 粮食 安全 


具有 重要 意义 。 然 而 价格 预测 受 多 种 复杂 因素 的 影响 , 如 
国际 形势 、 市 场 情绪 博弈 等 。 因 此 ， 识 别 价格 的 影响 因素 对 构建 准确 的 价格 预测 
模型 至 关 重要 。An 等 [bo] 提出 了 一 个 基于 历史 数据 和 文本 数据 的 融合 多 种 方法 


的 混合 预测 框架 ， 其 中 经 验 模 态 分 解 (Empirical Mode Decomposition: EMD) 


析 用 于 提取 微 博文 本 信息 ， 再 利 有 


用 于 预 处 理 历史 数据 , 动态 主题 模型 (Dynamic Topic Model: DTM) 和 情感 分 


H CE 等 方法 对 提取 的 因子 进行 筛选 ， 用 于 构 


建 预测 模型 。 作 者 在 两 个 实际 数据 上 验证 了 该 方法 框架 : 国家 统计 局 的 猪肉 价 
格 数据 和 大 连 商品 交易 所 的 大 豆 期 货 价 格 数据 ， 并 收集 了 相应 时 间 内 的 微 博文 
本 数据 。 在 实验 中 ， 作 者 将 CE 方法 与 同类 的 dCor 和 HSIC 方法 进行 了 对 比 ， 


结果 表明 ， 在 两 个 数据 上 ， 基 于 CE Bp 


I 模型 都 给 出 了 最 好 的 预测 性 能 。 


库存 管理 是 企业 运营 管理 过 程 中 的 关键 环节 ， 也 是 管理 学 的 重要 问题 之 一 。 


报 童 问题 是 典型 的 单 周期 库存 管理 模型 ， 一 直 是 本 领域 研究 的 焦点 。 近 年 来 ， 利 
用 数据 驱动 模型 和 方法 的 报 童 问题 研究 展现 出 比 传统 方法 的 优越 性 ， 进 而 成 为 


了 热门 话题 。Tian 和 Zhang [D1] 提出 了 一 种 端 到 端的 算法 框架 ， 利 用 深度 学 习 


模型 从 在 线 商品 评论 等 特征 数据 中 预测 订单 数量 ， 其 中 采用 了 包括 CE 在 内 的 
方法 来 选择 模型 的 输入 特征 。 他 们 将 方法 应 用 于 汽车 库存 管 
至 2022 年 间 的 大 众 朗 逸 汽 车 的 历史 销售 量 、 某 网 站 的 评论 、 某 搜索 引擎 指数 、 
和 宏观 经 济 指数 等 数据 构建 了 模型 。 结 果 显 示 ， 本 方法 能 够 大 幅 减少 超额 成 本 
和 短缺 成 本 之 和 ， 与 同类 方法 相 比 减少 了 31.8% 的 成 本 。 


5.24 


社会 学 


t 


TRA, fpi 
现象 的 社会 学 因素 是 学 者 们 关心 的 问题 ， 利 月 


理 问 题 ， 基 于 2016 


FE 别 不 平等 是 社会 学 研究 的 问题 之 一 。 由 性 别 视角 , 我 们 可 以 发 现 很 多 不 平 


在 收入 上 、 教育 上 、 职 业 上 的 不 平等 等 。 分 析 和 鉴别 导致 不 平等 
有 定量 方法 分 析 相 关 社 会 学 数据 是 


研究 的 手段 之 一 。 然 而 各 种 社会 因素 之 间 的 因果 链条 十 分 复杂 ， 需 要 采用 科学 


的 数据 分 析 工 具 加 以 应 对 。 马 健 [L1] 提出 了 一 种 多 域 因 果 关 系 鉴别 方法 ， 将 性 


别 因素 作为 社会 外 在 变量 ， 将 不 平等 问题 转化 为 数据 分 析 中 的 域 迁 移 问 题 ， 利 


用 基于 CE 的 条 件 独立 性 测试 发 现 社会 变量 之 间 的 因果 关系 。 他 将 方法 应 用 于 


美国 国家 成 人 收入 社会 调查 数据 ， 分 析 了 性 别 、 教 育 和 收入 之 间 的 因果 关系 链 


A. BRAT! 


E 别 导致 教育 不 平等 ， 进 而 造成 收入 不 平等 的 科学 证 据 。 
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5.25 教育 学 


高 中 教育 各 学 科 之 间 具 有 内 在 的 联系 ， 教 学 大 纲 中 强调 了 数学 对 物理 、 化 
学 和 生物 等 学 科 的 基础 性 地 位 ， 数 学 知识 、 数 学 思维 和 思想 方法 深刻 地 渗透 影 
响 着 其 他 学 科 的 教学 。 因 此 ， 数 学 成 绩 被 认为 与 其 他 学 科 成 绩 具 有 相关 性 。 利 用 
实证 的 方法 研究 数学 与 其 他 学 科 的 关系 ， 分 析 数学 成 绩 与 其 他 成 绩 之 间 的 相关 
性 是 一 个 重要 的 基本 问题 ， 对 于 教学 改革 和 学 习 方式 的 选择 具有 普遍 参考 意义 。 
柳 琼 (92) 基于 某 市 2013 级 理科 学 生 高 一 、 高 二 期 未 考试 成 绩 和 高 三 两 次 模拟 
考试 成 绩 ， 研 究 了 数学 成 绩 与 其 他 学 科 成 绩 之 间 的 相关 性 。 作 者 比较 了 经 典 线 
性 相关 系数 、 秩 相关 系数 和 MI 三 种 相关 性 度量 方法 ， 从 CE 和 MI 理论 关系 的 


42 


角度 分 析 论 证 了 MI 度量 的 优越 性 ， 并 实验 证 明了 MI 度量 能 够 更 好 地 刻画 揭 


示 数 学 对 其 他 不 同学 科 语文、 英语 、 


5.26 ”计算 语言 学 


物理 、 化 学 和 生物 等 ) 的 影响 力 机 制 。 


城市 服务 热线 是 政府 公共 管理 系统 的 重要 组 成 部 分 ,促进 了 政府 和 市 民 的 
沟通 ， 改 善 了 政府 的 公共 服务 。 但 传统 的 人 工 派 单 方式 无 法 满足 日 益 增长 的 热 


线 诉 求 ， 如 何 高 效 快速 的 处 理 大 量 的 


F 民 热线 诉求 是 城 站 


服务 热线 提高 服务 质 


量 面临 的 重要 课题 。 大 量 的 热线 文本 数据 积累 为 快速 第 选 和 处 理 热线 诉求 提供 


了 可 能 ， 可 以 利用 自然 语言 处 理 方法 处 理 热 线 文本 数据 ， 进 而 构建 智能 派 单 系 


统 。 陈 作 海 等 P 提出 了 一 种 基于 知识 图 
市 热线 数据 构建 热线 知识 图 谱 ， 再 对 待 派 单 诉求 根据 构建 的 知识 图 谱 检索 结果 
进行 派 单 ， 大 大 改善 了 热线 服务 的 工作 效率 。 在 此 
征 选 择 方法 被 用 来 对 城市 热线 数据 进行 预 处 理 ， 以 构建 和 更 新 知识 图 谱 。 结 果 
RI, CE 表现 优 于 其 他 同类 方法 。 作 者 将 该 方法 应 用 在 济南 市 民 服务 热线 的 系 


热线 派 单方 法 ， 基 于 城 


派 单 系统 中 ，CE 作为 特 


统 上 ， 通 过 不 断 更 新 知识 图 谱 ， 最 终 获得 了 90% 以 上 的 派 单 准确 率 。 


5.27 新闻 传播 学 


现 


给 


公共 卫生 事件 发 生 过 程 如 何 影响 公众 情绪 是 一 个 重要 的 问题 ， 具 有 理论 和 
实意 义 ， 对 政府 的 信息 发 布 和 与 情 管控 具有 参考 价值 。 特 别 是 新 媒体 环境 中 ，， 
公众 情绪 的 传播 和 演化 过 程 受 多 种 因素 影 
研 


响 ， 因 而 更 趋 复 杂 。 新 冠 疫情 的 发 生 


究 这 类 问题 提供 了 条 件 。Zhang 等 [D4] 研究 了 上 海 新 冠 疫情 发 生 期 间 ， 疫 
情 过 程 对 公众 情绪 的 影响 特点 和 机 理 。 他 们 以 微 博 平台 上 “上 海 疫情 ”主题 的 数 


据 为 基础 ， 研 究 了 公众 情绪 的 影响 因素 、 时 间 演 化 以 及 疫情 与 公众 情绪 之 间 的 
因果 关系 。 研 究 利 用 了 基于 CE 的 传递 箭 方法 分 析 了 疫情 和 公众 情绪 之 间 的 因 


果 关 系 ， 实 证 地 发 现 了 疫情 过 程 对 公众 负面 情绪 的 因果 效应 大 于 正面 情绪 ， 且 


正面 情绪 对 负面 情绪 具有 抑制 效应 。 
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5.28 法 学 

社区 是 基本 的 社会 生活 单元 ， 社 区 治安 管理 与 每 个 人 的 生活 息息相关 。 社 
区 属性 与 社区 犯罪 之 间 具 有 内 在 联系 ， 分 析 社区 经 济 、 社 会 和 人 口 等 属性 与 各 
类 犯罪 之 间 的 关系 ， 可 以 加 深 对 犯罪 行为 发 生 的 理解 ， 对 执法 部 门 合理 安排 部 
署 资 源 力量 具有 重要 参考 意义 。Wieser [D] 基于 CE 与 MI 的 等 价 关 系 ， 提 出 
了 一 种 新 的 信息 瓶颈 (Information Bottleneck) 估计 方法 。 由 于 利用 了 CE 的 
变换 不 变性 ， 该 方法 较 传统 同类 方法 具有 更 好 的 估计 性 能 。 他 将 该 方法 应 用 于 
美国 社区 与 犯罪 数据 集 ， 分 析 125 种 经 济 社会 因素 与 18 种 犯罪 属性 (包括 8 种 
犯罪 行为 ， 人 均 犯 罪 率 和 人 均 (GE) 暴力 犯罪 率 ) 之 间 的 关系 ,学习 得 到 了 可 以 
表示 这 种 关系 的 潜 变 量 模型 ， 为 构建 犯罪 预测 模型 提供 了 参考 。 


5.29 ”政治 学 


政治 安全 事 关 国家 安危 。 政 治学 研究 关心 政权 领导 力 因素 与 政权 危机 之 间 
的 关系 , 并 根据 这 些 信息 配置 资源 , 开展 情报 收集 、 稳 定 或 颠覆 政权 等 行动 。 基 
于 雪 城 大 学 莫 伊 尼 汉 全 球 事务 研究 所 的 国际 政治 领导 力 数据 集 ，Card po 研究 
了 37 个 领导 力 因素 与 政治 安全 之 间 的 非 线性 关系 ， 采 用 CE (MI) 作为 非 线性 
分 析 工 具 ， 重 点 关注 了 两 个 领导 力 变量 (政权 建立 原因 和 政权 结束 原因 ) 与 其 他 
因素 的 关系 。 分 析 结果 佐证 了 社会 学 家 的 已 有 理论 ， 分 析 也 印证 了 已 知 的 关系 ， 
发 现 了 未 知 的 关系 和 现象 。 


5.30 ”军事 学 


目标 意图 及 时 准确 识别 是 战场 态势 感知 的 一 项 重要 内 容 ， 是 指挥 决策 的 基 
础 和 前 提 。 空 中 飞行 目标 意图 识别 会 面临 多 种 不 确定 性 的 挑战 ， 如 行为 特性 与 
物理 特性 的 不 确定 性 、 飞 行规 则 的 不 确定 性 和 行动 能 力 的 不 确定 性 等 ， 使 得 及 
时 准确 的 意图 识别 十 分 困难 。 张 可 等 [p7] 提出 了 一 种 基于 动态 贝 叶 斯 网 络 的 目 
标 意图 识别 方法 ， 用 于 从 复杂 态势 中 目标 的 时 序数 据 中 完成 意图 识别 ， 方 法 利 
用 基于 CE 的 MI 佑 计算 法 从 目标 属性 和 目标 意图 数据 来 生成 由 叶 斯 网 络 结构 ， 
再 利用 自 适 应 遗传 算法 迭代 优化 网 络 结构 ， 利 用 最 终 优 化 得 到 的 网 络 来 进行 未 
知 目标 的 意图 识别 。 他 们 将 该 方法 应 用 于 空中 目标 的 处 理 过 程 ， 利 用 空中 目标 
的 位 置信 息 、 飞 行 信 息 ， 以 及 雷达 和 通讯 系统 信息 来 识别 其 6 种 不 同意 图 OR 
逻 、 预 警 /指挥 、 电 子 侦察 、 电 子 干扰 、 攻 击 和 打击 等 )。 该 方法 可 不 限于 空中 飞 
行 目 标 ， 可 以 很 方便 地 推广 到 其 他 类 型 目标 上 。 


5.31 情报 学 


苏 覆 性 技术 是 具有 原始 创新 性 的 技术 ， 会 对 现 有 主流 技术 和 产业 产生 变革 
性 作用 ， 推 动 经 济 社会 发 生 突变 式 进步 。 开 展 颠 履 式 技术 的 前 瞻 识 别 及 预 判 研 
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究 是 科技 情报 分 析 领 域 的 重要 问题 ， 对 科技 政策 制订 、 科 技 产业 布局 和 科技 创 
新 生态 培育 具有 指导 意义 。 基 于 知识 网 络 分 析 的 科学 、 技 术 和 产业 互动 模式 研 
究 是 解决 识别 研判 问题 的 路 径 之 一 。 许 海 云 等 [DS] 提出 了 一 个 颠覆 性 技术 研究 
流程 框架 ,以 渐进 式 技术 为 参照 获取 科技 、 专 利和 产业 文献 资料 的 文本 数据 , 利 
用 自然 语言 处 理 技术 分 别 构建 三 者 的 知识 网 络 ， 再 利用 知识 网 络 的 三 种 整体 网 
络 属性 和 网 络 社区 相似 度 属性 将 知识 网 络 互动 模式 划分 为 预 设 的 五 种 模式 ， 包 
括 科学 -技术 -产业 联动 模式 。 其中，CE 被 用 来 度量 三 种 知识 网 络 的 整体 网 络 属 
性 之 间 的 关联 度 ， 以 表征 互动 模式 。 他 们 以 再 生 医学 (干细胞) 领域 作为 颠覆 
性 技术 对 象 ， 以 白血病 治疗 领域 为 渐进 性 技术 参照 开展 实证 研究 ， 获 取 了 截至 
2020 年 底 的 权威 数据 库 相关 文本 数据 ， 利 用 该 流程 框架 研究 了 两 个 对 比 领域 科 
学 -技术 -产业 互动 模式 的 共性 和 差异 , 加 深 了 对 颠覆 性 技术 创新 生态 要 素 的 知识 
流动 和 扩散 规律 的 认识 。 


5.32 能源 工程 


天 气 是 能 源 系 统 的 重要 影响 因素 ， 直 接 影响 能 源 的 生产 和 消费 两 端 。 特 别 
是 当 可 再 生 能 源 整合 到 能 源 系统 中 后 ， 风 速 和 光照 等 天 气 因素 决定 了 风能 和 光 
伏 能 源 的 生产 能 力 ， 而 温度 变化 则 会 影响 居民 的 能 源 消耗 需求 。 但 自然 系统 具 
有 较 大 的 随机 性 ， 给 新 能 源 系 统 的 稳定 高 效 运行 带 来 了 挑战 。 因 此 ， 新 型 能 源 
网 络 管理 系统 需要 建立 合理 的 模型 ， 以 便 将 新 能 源 集成 到 网 络 中 。 信 息 论 为 管 
理 天 气 系统 的 随机 性 提供 了 工具 。Fu 等 [09] 研究 了 基于 信息 论 在 集成 能 源 系 统 
中 建立 天 气 模型 的 方法 。 作 者 采用 了 Copula 函数 建立 天 气 变量 的 联合 分 布 模 
型 ， 并 采用 CE 计算 的 MI 作为 模型 准确 性 的 评价 指标 ， 以 指导 建 模 过程 。 同 
时 ，MI 还 被 用 来 衡量 各 种 能 源 产 出 之 间 的 关联 强度 。 作 者 将 得 到 的 集成 能 源 系 
统 模型 用 于 模拟 中 国 北方 某 地 区 的 能 源 系 统 运行 情况 ， 并 与 实际 数据 进行 了 对 
比 ,结果 显示 ,系统 模型 的 模拟 与 实际 情况 基本 符合 , 说明 构建 的 天 气 模型 能 够 
满足 能 源 管理 系统 运行 需求 。 

光伏 发 电 技术 受 天 气 等 环境 因素 影响 , 具有 较 大 的 不 确定 性 , 给 电网 的 安全 
稳定 运行 构成 影响 。 根 据 气 象 条 件 等 因素 对 光伏 发 电站 有 功 功率 进行 预报 ， 有 
助 于 电网 调度 人 员 更 好 地 制定 调度 策略 ， 应 对 光伏 发 电 的 不 确定 性 给 电网 的 冲 
击 威胁 。 朱 正 林 和 张 里 (LOO) 提出 了 一 种 结合 优化 算法 、 模 态 分 解 、CE 和 深度 
学 习 模 型 的 方法 ， 用 于 提高 发 电功率 的 预测 精度 。 他 们 在 澳大利亚 Yulara 地 区 
光伏 电站 数据 上 将 方法 与 多 种 同类 方法 进行 了 对 比 ， 表 明 该 方法 得 到 的 模型 能 
够 更 好 地 适应 天 气 变化 的 影响 ， 取 得 最 好 的 预测 效果 。 

风能 作为 一 种 主要 的 清洁 能 源 ， 具 有 间歇 性 和 不 确定 性 的 特点 ， 导 致 风电 
机 组 的 功率 预测 和 控制 十 分 复杂 。 基 于 风电 机 组 的 监测 数据 ， 分 析 机 组 内 各 变 
量 之 间 的 相关 性 特征 ， 有 助 于 机 组 的 健康 状态 监测 和 风电 功率 预测 ， 从 而 更 好 
地 利用 风能 资源 。 崔 双双 和 和 孙 单 肌 [101] 提出 利用 CE 来 分 析 风电 机 组 状态 变量 
之 间 的 相关 性 ， 再 基于 CE 相关 性 进行 聚 类 以 得 到 机 组 工 况 的 划分 。 他 们 将 方 


= 
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法 应 用 于 广东 某 海上 风电 场 数据 采集 与 监控 (SCADA) 系统 的 数据 ， 发 现 CE 


方法 较 传统 方法 能 更 好 地 描述 数据 中 的 相关 性 ， 


并 利用 K-means 方法 得 到 了 能 


精确 地 反映 风电 机 组 运行 特性 和 状态 的 工 况 划 分 ， 具 有 重要 的 现实 意义 。 
电力 负荷 预测 是 根据 历史 数据 来 预报 未 来 一 段 时 间 的 用 电量 ， 对 智能 电网 
调度 和 规划 电力 输送 具有 重要 意义 。 电 力 负 符 受 多 种 因素 影响 ， 具 有 周期 性 和 


季节 性 等 特点 , 特别 是 受 天 气 因 素 的 影响 明显 。 


因此 ,构建 准确 的 电力 负荷 预测 


模型 需要 考虑 天 气 等 多 种 因素 ， 并 对 天 气 对 负荷 的 影响 特点 进行 分 析 。Ma 
提出 利用 基于 CE 的 TE 方法 来 分 析 动 态 系统 的 时 延 特性 ， 并 将 方法 应 用 于 麻 
洛 哥 缔 头 万 (Tétouan) 城 的 电力 消费 数据 ， 从 时 延 的 角度 分 析 了 五 种 天 气 因素 
对 该 城 三 个 电力 供应 网 络 的 负荷 的 影响 ， 发 现 了 影响 的 每 日 时 延 变化 特征 。 

可 再 生 的 风光 能 源 越 来 越 成 为 电力 能 源 的 重要 组 成 部 分 ， 如 何 保证 风光 电 
力 接 入 的 经 济 效益 和 安全 可 靠 是 可 再 生 能 源 利用 的 主要 关切 。 合 理 的 规划 对 于 
解决 此 关切 十 分 关键 ， 可 保证 建设 投资 回报 和 系统 合理 运行 ， 防 止 风光 能 源 被 
弃 用 的 发 生 。 储 能 系统 可 以 平抑 风光 能 源 的 不 稳定 波动 性 ， 是 风光 系统 规划 的 
组 成 部 分 。 董 海燕 等 [LOD] 提出 了 一 种 考虑 源 荷 时 序 相似 性 的 风光 储 协同 规划 配 
置 方法 ， 其 中 利用 CE 衡量 风光 能 源 与 负荷 之 间 的 相似 性 ， 以 提高 系统 风光 能 


源 的 利用 效率 。 他 们 将 方法 应 用 于 某 工 业 园区 的 风光 火 储 联合 发 电 系统 的 规划 


配置 , 结果 表明 , 该 方法 能 有 效 降低 储 能 系统 的 
力 ， 经 济 效益 和 减 排 效益 明显 。 
频率 是 电力 系统 最 重要 的 物理 量 指标 之 一 ， 


装机 容量 ， 提 高 新 能 源 的 消 纳 能 


频率 稳定 性 是 保障 电力 供应 稳 


定性 的 一 个 基本 要 求 。 可 再 生 能 源 由 于 具有 不 可 预测 性 ， 其 大 量 接 人 电网 给 电 
网 频率 稳定 性 带 来 了 挑战 。 为 了 稳定 和 控制 新 能 源 带 来 的 频率 波动 ， 需 要 准确 
快速 地 预测 系统 的 频率 稳定 性 ， 以 帮助 系统 操作 员 提前 制定 控制 策略 。 传 统 的 
频率 稳定 性 预测 是 模型 驱动 的 ， 由 于 求解 耗 时 从 而 无 法 做 到 在 线 预 测 。 基 于 机 
器 学 习 的 模型 方法 ， 通 过 简化 模型 以 提高 计算 效率 ， 可 以 满足 在 线 预 测 的 需求 。 


Liu 等 [103] 提出 了 一 种 结合 深度 学 习 和 CE 的 频率 稳定 性 预测 方法 ，CE 被 用 
来 选择 模型 输入 变量 ， 减 少 元 余 信息 以 提高 计算 效率 。 作 者 将 方法 应 用 于 两 个 


系统 : 一 个 是 新 英格兰 39 节点 系统 ,集成 了 美 


国 西部 电力 调度 委员 会 的 动态 风 


场 模型 ， 男 一 个 是 基于 南 加 州 西部 的 电网 系统 建立 的 ACTIVSg500 系统 。 实 验 


表明 该 方法 建立 的 模型 相 较 同 类 模型 取得 了 最 好 成 绩 ， 达 到 了 实用 的 要 求 。CE 


方法 不 仅 简化 了 模型 、 大 幅 降低 了 计算 时 间 ，j 
的 电网 变量 ， 使 得 模型 具有 了 可 解释 性 


日 分 析 发 现 了 与 频率 稳定 性 相关 


电力 系统 宽频 振荡 由 变 流 器 控制 主导 , 激发 机 理 复杂 , 具有 显著 的 时 变 、 非 
线性 和 广 域 传播 等 特征 ,难以 有 效 地 进行 建 模 分 析 。 冯 双 等 利用 CE 的 模 
型 无 关 特性 ， 提 出 了 一 种 宽频 振荡 影响 因素 和 传播 路 径 分 析 方 法 。 该 方法 以 系 
统 运 行 的 状态 参数 为 随机 变量 ， 通 过 计算 其 与 各 个 频率 区 间 的 振荡 阻尼 之 间 的 


CE 来 选取 影响 振荡 的 关键 因素 ; 同时 ， 利 用 系 
变量 之 间 的 copula 传递 炉 网 络 ， 用 于 分 析 振 荡 


统 发 生 振荡 时 的 数据 ， 计 算 系统 
的 传播 过 程 。 该 分 析 方 法 是 数据 
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驱动 的 方法 ， 可 以 在 系统 模型 未 知 的 情况 下 得 到 相应 的 分 析 结果 。 

线 损 率 是 电力 能 源 企业 的 一 项 综合 性 的 经 济 技术 指标 ， 决 定 着 其 经 济 效益 
水 平 的 高 低 。 因 此 ,， 线 损 管理 和 异常 线 损 稽查 是 电力 部 门 的 一 项 重要 工作 。 线 损 
分 析 是 利用 科学 的 计算 手段 分 析 线 损 在 电网 中 的 分 布 规律 ， 能 为 管理 提供 高 效 、 
准确 的 决策 支持 。Hu 等 [Loo] 提出 了 一 种 基于 TE 的 线 损 分 析 方法 ， 通 过 CE 


估计 计算 每 个 用 户 对 区 域 总 线 损 的 TE 值 来 判断 其 对 总 线 损 的 贡献 。 他 们 基于 
每 日 电力 供应 和 线 损 数据 的 计算 分 析 ， 将 用 户 根据 线 损 贡 献 度 排序 ， 以 应 用 于 


实际 N 线 i 管理 工 
电价 预测 问 


作 中 ， 从 而 减少 总 线 损 率 。 
题 在 电力 市 场 参与 者 决策 中 至 关 重 要 ， 可 以 帮助 其 开发 交易 策 


咯 并 合理 分 本 资源 但 新 能 源 的 广泛 使 用 使 电力 供应 具有 不 确定 性 ， a 
价 预 测 变 得 更 加 复杂 ， 造 成 预测 模型 构建 较为 困难 。Xiong 和 Qing [106] 提出 
BA AE a dC ET. 
分 解 、 贝 叶 斯 优化 和 LSTM 模型 相 结合 , 以 构建 预测 模型 。 他 们 将 方法 应 用 于 


2017 年 美国 宾夕法尼亚 州 -新 泽 西 州 -马里 兰州 互联 网 络 (PJM) 电力 市 场 数据 


上 ， 证 明了 该 方 


法 的 有 效 性 和 实用 性 。 


锂电 池 是 使 用 最 广泛 的 绿色 清洁 能 源 。 但 锂电 池 的 电池 容量 会 随 着 使 用 次 
数 而 退化 ， 因 此 电池 健康 状态 监测 是 电池 管理 系统 中 的 主要 问题 之 一 。 传 统 的 


健康 状态 监测 模型 大 多 在 单一 负载 状况 假设 下 得 到 ， 无 法 适用 于 真实 场景 


多 种 状况 ， 导 致 在 原始 数据 上 得 到 的 模型 无 法 适应 新 的 情况 。 针 对 此 问题 ， 

和 Wa (LOZ) 提出 了 一 种 基于 迁移 学 习 思 想 的 电池 容量 估计 方法 ， ak. 
析 、 注 意 力 机 制 和 LSTM 等 工具 ， 其 中 基于 CE 的 TE 被 用 于 选择 与 容量 退 
化 相关 的 健康 状态 指标 ， 以 保证 构建 模型 在 不 同 状况 下 的 可 迁移 性 。 作 者 将 方 
法 应 用 于 NASA 的 3 种 负载 状况 下 的 锂电 池 退 化 数据 ， 结 果 表 明 ， 基 于 因果 分 


析 构 建 的 模型 比 
和 12.476, Tiu 


于 两 种 传统 方法 的 模型 的 跨 工 况 预 测 准确 度 分 别提 高 了 8.676 
了 模型 的 鲁 棒 性 。 


5.33 食品 工程 


和 葡萄酒 作 为 一 


种 奢侈 农产品 ， 越 来 越 走 进 广大 普通 消费 者 。 和 葡萄 酒 质量 的 


品 鉴 对 其 生产 和 销售 都 至 关 重要 ， 和 葡萄 酒 酿造 业 大 量 投 入 在 质量 评价 环节 ， 以 
改善 酿造 工艺 并 促进 消费 。 传 统 的 质量 品 鉴 主要 依靠 理化 测试 和 专家 感受 ， 但 


专家 的 味觉 感受 


主观 性 较 强 , 其 内 在 机 理 难 以 理解 。 因此 ， 有 必要 研究 酒 的 成 分 


和 专家 评价 之 间 的 内 在 联系 ， 以 增进 对 葡萄 酒 质量 的 理解 ， 提 高 质量 评价 的 客 


种 因果 关系 网 络 
量 评价 数据 上 ， 


观 性 。Lasserre 等 [108 109] 利用 基于 CE 的 (条 件 ) 独立 性 度量 估计 ,提出 了 一 


学 习 算法 ， 称 为 CMIIC， 并 将 其 应 用 于 著名 的 葡萄 牙 绿 酒 的 质 
分 析 发 现 了 分 别 与 红 葡 萄 酒 和 白 和 葡萄 酒 的 质量 相关 的 理化 成 分 。 
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5.34 土木 建筑 


建筑 能 源 消耗 占 全 部 能 源 消耗 的 四 成 左右 ， 建 筑 节能 技术 是 重要 的 绿色 能 
源 技术 ， 对 实现 联合 国 的 碳 中 和 目标 意义 重大 。 供 暧 、 通风 和 空调 (HVAC) 系 
统 贡 献 了 商业 楼 宇 四 成 以 上 的 能 耗 ， 是 建筑 节能 的 主要 研究 对 象 之 一 。HVAC 
系统 的 运行 具有 时 延 的 特性 ， 来 自 于 媒介 传导 的 滞后 和 热 惯性 。 理 解 并 运用 这 
种 特性 ， 有 利于 设计 适当 的 控制 策略 ， 从 而 达到 节能 的 目的 。Li 等 [110] 将 基于 
CE 的 TE 理念 方法 引入 到 HVAC 领域 ， 开 发 了 一 种 基于 信息 论 框架 的 无 模型 
时 延 鉴别 方法 ， 用 于 HVAC 系统 的 时 序 预测 。 他 们 改进 了 kNN 的 多 变量 TE 
估计 器 ， 结 合 优化 方法 设计 了 时 延 鉴 别 算法 。 他 们 将 算法 应 用 于 大 连 某 四 层 教 
学 楼 的 供 热 监控 系统 ， 分 析 室 内 温度 与 天 气 参数 (如 室外 温度 、 相 对 湿度 、 太 阳 
辐射 、 风 速 等 ) 和 供 热 参数 (如 热 水 供 应 和 回流 温度 等 ) 的 数据 ,鉴别 时 延 特性 ， 
进而 利用 后 两 组 参数 预测 下 一 段 时 间 的 室温 。 结果 表明 ，TE 方法 能 够 鉴别 参数 
之 间 的 时 延 关 系 特性 ， 进 而 提高 室温 预测 性 能 。 

工程 变形 监测 是 工程 测量 领域 的 重要 问题 之 一 ， 需 要 保证 监测 精度 和 可 靠 
性 ， 对 大 型 工程 的 施工 运营 安全 具有 重要 意义 。 常 见 的 变形 监测 分 析 方法 一 般 
只 针对 单个 监测 点 的 建 模 和 预测 ， 但 变形 体内 部 监测 点 间 不 是 孤立 的 ， 而 是 具 
有 内 在 的 相关 性 ， 因 而 可 以 利用 这 种 相关 性 提高 单 点 监测 的 预测 精度 。 曹 久 慧 
等 [nu] 提出 了 一 种 基于 自 注意 力 机 制 的 变形 监测 方法 ， 采 用 CE 度量 监测 点 与 
围 点 之 间 的 相关 性 ， 再 利用 这 些 相关 点 组 成 的 数据 集训 练 自 注意 力 机 制 的 模 
型 来 进行 长 时 间 的 变形 预测 。 他 们 将 方法 应 用 于 某 隧道 施工 段 2020 4g 12 月 至 
2021 年 10 月 间 围 卉 上 监测 点 位 的 位 移 数据 ， 以 预测 7 天 的 变形 ， 获 得 了 较 好 
的 效果 , 对 实际 工程 围 霸 预警 等 长 期 变形 预测 问题 具有 良好 的 应 用 价值 。 


S mH 


= 


5.35 ”交通 运输 

大 件 货物 运输 是 指 通 过 多 种 运输 方式 对 具有 不 可 拆 解 属性 的 大 型 物件 的 专 
业 运 输 作业 活动 ， 在 国民 经 济 中 占有 重要 地 位 ， 对 国计民生 重点 行业 的 基础 设 
施 建设 起 着 重要 的 支撑 和 保障 作用 ， 也 关系 着 国防 军事 和 国家 安全 。 大 件 货物 
运输 大 都 需要 铁路 、 航 运 等 多 式 联运 的 方式 才能 完成 ， 需 要 制定 各 个 局 部 运输 
环节 模块 联动 的 整体 方案 。 随 着 交通 系统 的 数字 化 ， 大 量 的 相关 方案 数据 得 到 
积累 ， 基 于 数据 的 大 件 货物 运输 方案 ku M did 
于 提高 方案 制定 的 科学 性 和 适用 性 。 黄 达 [112] 利用 CE 等 多 种 数学 工具 提出 
T= ieee i ui 该 方法 先 将 运输 方 
案 分 解 为 多 个 局 部 环节 模块 ， 再 利用 CE 等 相关 性 度量 工具 筛选 一 组 模块 属性 
用 于 计算 方案 之 间 的 相似 度 ， 最 后 在 已 有 运输 案例 库 中 检索 与 目标 运输 任务 相 
似 度 高 的 案例 作为 初步 运输 方案 。 由 于 大 件 运输 方案 的 多 样 性 ， 一 些 案例 模块 
属性 会 具有 非 高 斯 性 ， 使 得 传统 的 相关 系数 工具 不 再 适用 于 计算 属性 间 相关 性 ， 
而 CE 由 于 具有 普 适 性 则 依然 适用 。 作 者 在 600 多 个 实际 案例 的 数据 上 验证 了 
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该 方法 ， 并 构建 了 方案 制定 原型 系统 。 

航空 和 高 速 铁路 是 我 国 最 主要 的 两 种 旅客 运输 方式 。 相 较 于 航空 ， 高 铁 标 
价 的 市 场 化 水 平 处 于 落后 的 水 平 ， 人 欠缺 灵活 性 和 动态 性 。 因 此 ， 研 究 影响 票 价 
的 因素 以 期 改进 高 铁 票 价 的 定价 机 制 是 学 界 十 分 关心 的 问题 。 许 罗 豪 等 基 
于 京 沪 航 空 和 高 铁 票 价 的 数据 ， 利 用 CE 和 决策 树 等 工具 研究 了 出 行 需求 、 旅 
客 选择 、 出 行 效率 和 出 行路 线 四 类 因素 对 航空 和 高 铁 票 价 的 影响 。 他 们 发 现 购 
票 提前 期 对 两 种 票 价 的 影响 程度 不 同 ， 但 旅行 时 间 对 二 者 的 影响 程度 较为 相似 。 
这 些 研究 结论 对 高 铁定 价 具 有 一 定 的 参考 价值 。 


5.36 ”制造 工程 


产品 质量 是 制造 业 的 生命 。 注 射 成 型 (injection molding) 是 近年 快速 发 展 
的 工业 制造 技术 ,在 航天 、 建 筑 、 通 讯 等 领域 有 着 广泛 应 用 。 注 射 成 型 过 程 包括 
了 多 步 复杂 的 物理 和 化 学 反应 过 程 ， 很 容易 受到 外 部 因素 的 影响 ， 保 证 塑料 产 
品质 量 的 稳定 性 是 一 个 难题 。 基 于 制造 过 程 历史 数据 ， 建 立 产品 质量 预测 模型 
是 提高 产品 质量 的 手段 之 一 。 但 建立 模型 需要 首先 选择 有 关 的 过 程 参数 作为 模 
型 输入 ， 以 获得 较 好 的 预测 性 能 。 Sun 等 [1A 提出 基于 CE 方法 选择 过 程 参数 
变量 用 于 构建 质量 预测 模型 ， 并 将 方法 应 用 于 真实 的 富 十 康 公司 的 注射 成 型 生 
产 过 程 数 据 ， 大 幅 改 善 了 质量 预测 的 性 能 。 

复杂 机 械 产 品 的 整 机 制造 包括 设计 、 制 造 和 装配 三 个 环节 。 作 为 产品 生产 
的 最 后 一 个 环节 ， 装 配 过 程 在 零 部 件 的 制造 过 程 基础 上 组 装 高 精度 产品 ， 装 配 
质量 控制 在 零 部 件 制造 质量 的 基础 上 保障 整 机 产品 质量 。 复 杂 机 械 产 品 零 部 件 
数量 种 类 繁多 、 相互 关联 , 装配 环节 错综复杂 ， 上 游 环节 的 装配 质量 误差 会 对 下 
游 环节 质量 构成 影响 。 王 小 巧 忆 引 在 装配 质量 控制 中 考虑 了 上 下 游 工 序 和 质量 
控制 点 之 间 的 相关 性 ， 利 用 Copula 对 控制 点 间 相关 关系 建 模 ， 并 用 CE 度量 这 
种 相关 性 ， 进 而 提出 了 一 种 装配 质量 控制 点 控制 阀 优化 方法 。 她 将 方法 应 用 于 
江淮 汽车 某 型 汽油 发 动机 关键 零 部 件 缸 盖 的 装配 工序 过 程 ， 验 证 了 方法 的 有 效 
性 。 

现代 工业 系统 变 得 越 来 越 高 度 复杂 和 自动 化 ， 使 得 工业 过 程 监测 变 得 愈加 
困难 。 如 何 监测 系统 异常 并 发 现 异常 原因 是 一 个 具有 广泛 应 用 的 重要 问题 。 利 
用 因果 分 析 得 到 工业 系统 内 部 复杂 的 因果 关系 图 ， 有 助 于 准确 发 现 异常 的 传播 
路 径 ， 进 而 及 时 进行 干预 。Dong 等 [116] 提出 了 一 个 结合 动态 PCA, TE 和 
LSTM 的 故障 分 析 框 架 ， 其 中 基于 CE 的 TE 被 用 分 析 系 统 内 的 因果 关系 。 作 
者 将 该 方法 应 用 于 辽宁 鞍钢 的 热 轧 带 钢 工 艺 过 程 数据 的 分 析 ， 成 功 地 对 过 程 中 
的 两 个 故障 及 其 原因 进行 了 分 析 。 作 者 还 将 基于 TE 的 因果 图 分 析 方法 与 同类 
格 兰 杰 因 果 分 析 方法 进行 了 对 比 ， 表 明 TE 方法 能 够 更 准确 地 对 故障 进行 根 因 
分 析 。 

烧结 过 程 (Sintering Process: SP) 在 钢铁 工业 中 至 关 重 要 ， 同 时 也 会 消耗 
大 量 的 能 源 。 动 态 预 测 SP 的 碳 消耗 有 助 于 节约 能 源 和 减少 碳 排放 。 传 统 的 SP 
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建 模 基 于 一 定 的 假设 , 无 法 适应 SP 的 系统 动态 特性 , 基于 数据 的 机 器 学 习 模 型 
可 以 克服 传统 模型 的 不 足 。Hu 等 提出 了 一 种 动态 建 模 方法 框架 ， 可 以 自 
动 识 别 过 程 工 况 状态 ， 从 而 进行 碳 消耗 预测 。 该 方法 框架 结合 了 AKFCM 3828 
算法 、 基 于 CE 的 模型 选择 和 宽度 学 习 模 型 方法 。 作 者 在 一 家 钢铁 企业 的 实际 
数据 上 验证 了 方法 的 有 效 性 ， 证 明了 CE 可 以 快速 地 捕捉 不 同 工 况 下 SP 中 复 
杂 的 相关 关系 模式 ， 从 而 使 该 方法 能 够 比 传统 方法 更 准确 地 预测 烧结 碳 消耗 。 


5.37 可 靠 性 工程 


退化 过 程 (degradation processes) 在 各 种 工程 系统 中 普遍 存在 ， 导 致 系统 
可 靠 性 的 降低 甚至 失效 ， 如 金属 材料 的 疲劳 和 腐蚀 、 半 导体 器 件 的 参数 漂移 等 。 
退化 过 程 建 模 是 评估 系统 和 产品 有 效 性 和 寿命 的 主要 技术 手段 之 一 。 由 于 现代 
系统 的 复杂 性 ， 影 响 退 化 过 程 的 因素 较 多 ， 因 素 变量 本 身 具 有 非 线 性 特征 ， 且 
变量 之 间 又 相互 关联 ， 从 而 对 退化 过 程 建 模 构成 了 可 靠 性 工程 的 一 个 基本 难题 。 
如 果 建 模 时 忽略 了 因素 之 间 的 相关 性 ， 就 会 导致 模型 错误 和 可 靠 性 估计 误差。 传 
统 的 衡量 因素 之 间 的 相关 性 主要 采用 线性 相关 系数 ， 难 以 处 理 复杂 的 相关 关系 。 
Sun 等 [118] 提出 采用 copula 对 过 程 因 素 之 间 关系 建 模 ， 并 用 CE 来 度量 退化 
过 程 因 素 之 间 的 关联 。 他 给 出 了 一 种 参数 化 CE 估计 方法 ， 并 成 功 应 用 于 微波 
电子 组 件 的 退化 过 程 分 析 中 。 结 果 表 明 ， 该 方法 能 够 分 析 不 同 阶段 的 退化 过 程 。 


5.88 化 学 工程 


故障 诊断 对 化 学 过 程 的 安全 、 高 效 运行 至 关 重 要 ， 数 据 驱动 的 故障 诊断 方 
法 是 实际 生产 运行 中 的 主要 方法 之 一 。 为 了 构建 诊断 模型 ， 构 建 合理 的 正常 和 
故障 状态 的 过 程 表 示 是 问题 的 关键 环节 。Yin 等 [119] 提出 了 一 种 基于 CE 的 灰 
度 相关 空间 的 故障 诊断 方法 ， 通 过 变量 之 间 的 CE 相关 性 矩阵 来 刻画 过 程 的 正 
常 和 故障 状态 ， 再 将 算 阵 作为 卷 积 神经 网 络 的 输入 来 构建 故障 分 类 模型 。 他 们 
将 方法 应 用 于 田纳西 伊 斯 曼 (Tennessee Eastman) 过 程 的 故障 诊断 数据 ， 结 果 
表明 该 方法 取得 了 95% 以 上 的 诊断 准确 率 ， 验 证 了 方法 的 有 效 性 。 主 元 分 析 法 
(PCA) 是 一 种 常用 的 多 变量 过 程 检测 方法 ， 原 理 是 基于 最 大 方差 准则 从 一 组 过 
程 变量 构建 过 程 检测 统计 量 ， 但 其 仅 适 用 于 线性 的 情况 。Wei 和 Wang [120] 提 
出 了 一 种 基于 CE 的 非 线性 PCA 方法 (CEPCA), 从 具有 非 线性 特征 的 CE 4E 
阵 得 到 过 程 检测 统计 量 。 他 们 将 方法 应 用 于 田纳西 伊 斯 曼 过 程 数据 ， 并 与 PCA 
方法 进行 了 对 比 ， 结 果 表 明 ，CEPCA 方法 获得 了 更 好 的 故障 检测 率 结果 。 
理解 化 工 过 程 变量 之 间 的 因果 关系 对 于 过 程控 制 十 分 重要 ， 有 助 于 更 好 的 
过 程 监测 和 故障 诊断 。 利 用 因果 发 现 方法 构建 化 工 过程 因 果 关系 图 ， 可 以 对 故 
障 进行 根 因 分 析 ， 是 故障 诊断 的 重要 方法 之 一 。Bi flail 提出 了 一 种 基于 深 
度 学 习 进 行 因果 发 现 的 CGTST 方法 ， 并 与 基于 CE 的 TE 等 多 种 方法 进行 了 
对 比 。 实 验 结果 表明 ,在 一 个 5 变量 的 连续 搅拌 模式 反应 器 数据 上 ，TE 方法 获 
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得 的 反应 图 结果 非常 接近 于 真实 情况 ; 在 田纳西 伊 斯 曼 过 程 数据 上 ，TE 方法 也 
取得 了 接近 于 真实 情况 的 佑 计 结果 ， 体 现 出 了 较 强 的 实用 性 。 


5.39 ”航空 航天 


航空 飞行 器 系统 日 趋 复杂 ， 飞 行 器 设计 首先 需要 加 深 对 其 总 体 设计 参数 的 
认识 。 对 各 种 设计 参数 间 的 耦合 关系 的 理论 分 析 ， 有 助 于 分 析 设计 方案 可 行 性 
或 优化 总 体 设计 方案 。Krishnankutty 等 [122] 基于 CE 与 MI 的 等 价 关系 ， 提 
出 了 两 种 基于 Copula 的 MI 估计 方法 ， 并 将 方法 应 用 于 美国 22 种 喷气 战斗 机 
的 技术 参数 数据 的 分 析 ， 估 计 了 飞行 航程 和 可 承受 负载 之 间 的 耦合 关系 ， 验 证 
了 分 析 方法 的 有 效 性 。 
卫星 是 航天 时 代 的 主要 航天 器 类 型 ， 在 信息 时 代 有 着 广泛 的 民事 和 军事 用 
途 。 作 为 一 种 在 极端 环境 运行 的 复杂 系统 ， 卫 星 的 在 轨 健 康 状 态 监测 十 分 重要 。 
卫星 表 测 数据 是 各 种 传感器 参数 的 编码 ， 包 含 了 卫星 内 部 运行 系统 物理 参数 的 
交互 关系 信息 。 卫 星 的 异常 模式 会 由 于 这 种 交互 而 在 内 部 传播 ， 因 此 分 析 这 种 
内 部 交互 导致 的 故障 传播 链条 有 助 于 及 时 发 现 卫星 异常 状态 ， 保 障 卫 星 正常 运 
行 。 分 析 遥 测 参数 之 间 的 因果 关系 是 一 种 解决 问题 的 路 径 。Liu 等 [123] 提出 直 
接 将 基于 CE 的 TE 应 用 于 分 析 真实 的 卫星 般 测 数据 ， 得 到 了 通 测 参数 之 间 的 
故障 传导 图 ， 结果 要 优 于 传统 的 TE 方法 。Zeng ^$ [124] 提出 了 一 种 改进 的 TE 
度量 ， 称 为 NMCTE， 用 于 分 析 遥 测 参数 之 间 的 因果 关系 网 络 ， 该 度量 利用 了 
基于 CE 的 TE 表示 和 估计 方法 。 他 们 又 提出 了 基于 所 得 因果 网 络 的 异常 检测 
的 CN-FA-LSTM 方法 。 他 们 将 NMCTE 方法 应 用 于 真实 的 卫星 遥测 数据 ， 得 
到 了 具有 良好 的 可 解释 性 的 因果 网 络 。 他 们 又 将 CN-FA-LSTM 方法 在 NASA 
公开 的 SMAP 和 MSL 数据 集 上 与 其 它 6 种 方法 进行 了 对 比 ， 验 证 了 方法 的 优 
越 性 。 

航班 延误 是 影响 国际 民航 业 正常 有 效 运行 的 主要 间 题 之 一 ， 不 仅 给 旅客 千 
成 出 行 不 便 ， 也 给 航空 业 带 来 巨大 经 济 损失 。 航空 系统 是 一 个 有 机 的 整体 ,运行 
中 存在 航班 资源 的 上 下 游 共享 ， 带 来 了 系统 粗 合 ， 导 致 上 游 航 班 的 到 港 延误 会 
向 下 游 传播 ， 因 此 航班 延误 管控 首先 需要 对 这 种 延误 因果 关系 进行 分 析 。 吴 格 
等 [125] 提出 利用 一 种 基于 CE 的 TE 估计 器 来 分 析 机 场 的 航班 延误 时 间 序列 
之 间 的 因果 关系 强度 的 方法 ， 使 民航 信息 系统 具有 了 分 析 两 个 航班 之 间 是 否 具 
有 延误 因果 关系 的 能 力 ， 从 而 能 够 深入 理解 和 利用 航空 系统 节点 间 航 班 延误 的 
内 在 关系 。 


5.40 车辆 工程 

现代 汽车 的 电子 设备 系统 由 车 载 网 络 连接 集成 ， 提 高 了 乘坐 的 舒适 性 、 安 
全 性 和 多 功能 特性 。 但 随 着 智能 车 辆 技术 的 发 展 ， 车 内 设备 也 成 为 了 黑客 攻击 
的 对 象 ， 对 车 辆 安全 构成 了 威胁 。CAN 总 线 是 一 种 智能 车 辆 内 连接 控制 各 个 车 
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辆 电子 组 件 的 数据 通信 协议 ， 已 在 汽车 领域 成 为 事实 上 的 主流 标准 ， 
乏 加 密 、 认 证 等 机 制 ， 其 在 网 络 攻击 面前 非常 脆弱 。 因 此 ， 研 究 CAN 


51 


但 由 于 缺 
总 线 的 入 


侵 检 测 技术 成 为 了 提高 其 安全 性 的 主要 技术 手段 之 一 。Gao 等 提出 了 一 
种 轻 量 级 神经 网 络 设计 方法 ， 用 于 检测 CAN 总 线 人 侵 事 件 ， 其 首先 分 析 异 党 


CAN 数据 帧 的 属性 集合 ， 再 利用 CE 选择 出 众多 属性 中 与 人 侵 攻击 有 
属性 ， 再 利用 这 些 属性 构建 一 种 CanNet 神经 网 络 检测 器 以 检测 人 侵 
用 现代 汽车 索纳塔 YF 的 CAN 总 线 数据 验证 了 CanNet 方法 ， 结 果 
法 与 同类 方法 相 比 具有 高 检测 率 、 高 实时 性 和 低 内 存 占用 的 优点 。 


5.41 电子 工程 
半导体 必 片 的 集成 度 的 不 断 提 高 ， 对 微 电 子 封装 的 要 求 也 越 来 越 


关 的 少数 
。 他 们 利 
表明 该 方 


高 。 微 电 


子 封装 起 着 隔绝 外 部 环境 、 散 发 内 部 热量 的 功能 ， 对 集成 电路 的 稳定 运行 具有 


至 关 重 要 的 保护 作用 。 这 就 要 求 封装 材料 具有 良好 稳定 性 、 高 强度 , H 


时 还 要 满 


足 其 他 物理 性 质 。 刘 过 [127] 以 Cu 基 材 料 为 主体 ， 建 立 CuNi 二 元 合金 体系 ， 


利用 第 一 性 原理 与 机 器 学 习 相 结合 的 方法 ， 基 于 团 复 相关 函数 特征 ， 
与 材料 强度 和 稳定 性 相关 的 构 型 能 和 杨 氏 模 量 。 作 者 利用 CE 分 析 了 
的 合理 性 ， 通 过 计算 特征 之 间 的 相关 性 ， 以 及 特征 与 构 型 能 和 杨 氏 模 


相关 性 ， 发 现 模型 特征 与 杨 氏 模 量 之 间 的 相关 性 更 高 ， 同 时 构 型 能 与 杨 氏 模 量 


预测 分 别 
预测 模型 
量 之 间 的 


之 间 的 相关 度 较 低 ， 增 进 了 模型 的 可 解释 性 ， 有 助 于 设计 更 合理 的 材料 性 质 预 


测 模型 。 


5.42. 通信 工程 
通信 安全 是 移动 通讯 的 主要 关切 之 一 ， 一 般 通过 通信 层 的 加 密 技 


术 加 以 解 


决 。 在 资源 受 限 的 新 兴 网 络 (如 IoT. WSN 等 ) 中 ， 密 钥 分 发 是 一 个 挑战 。 无 


线 信道 的 互 易 性 为 通信 双方 提供 了 共享 密 钥 的 机 制 ， 双 方 可 通过 测量 
获取 密 钥 。 密 钥 容量 概念 为 无 线 信道 密 钥 提取 提供 了 理论 上 限 。 然 而 ， 


无 线 信道 
现实 中 窗 


钥 容量 往往 受到 诸多 实际 物理 条 件 (如 终端 移动 、 信 道 噪声 等 ) 的 限制 , 需要 对 


其 进行 定量 分 析 。Wang 等 [128] 研究 了 均匀 散射 环境 下 物理 因素 对 密 
影响 ， 将 其 转化 为 随机 变量 的 MI 计算 问题 ， 并 基于 仿真 物理 环境 验 
推导 的 正确 性 ， 仿 真实 验 采用 了 基于 CE 的 MI 估计 算法 估计 密 钥 容 
结果 表明 ， 理 论 推导 得 到 了 验证 ， 能 够 指导 实际 应 用 。 


明 容 量 的 
证 其 理论 
量 。 仿真 


第 6 代 【(6G) 通信 网 络 技术 的 研发 需要 面 对 的 主要 挑战 之 一 就 是 要 达到 更 


高 的 数据 传输 率 ， 以 满足 更 极致 的 体验 、3D 视觉 、 工 业 智 能 等 场景 需 


求 。 传 统 


的 通信 理论 没有 考虑 传输 信息 中 的 语义 信息 ， 而 6G 技术 可 以 利用 基于 AI 的 
语义 通信 来 达到 更 高 的 网 络 传输 性 能 。 传 宇 舟 等 129] 提出 了 一 种 面向 6G 网 络 
的 基于 语义 通信 的 端 到 端 服务 框架 ， 将 语义 通信 与 AI 的 语义 分 析 能 力 相 融合 ， 


利用 基于 Transformer 的 编 解 码 器 来 压缩 语义 信息 。 其 中 ， 语 义 编 码 
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函数 由 基于 欧式 距离 的 语义 损失 函数 和 基于 CE 的 信息 量 损失 函数 组 成 。 他 们 
利用 图 像 数 据 验证 了 该 服务 框 保 ， 使 用 ImageNet-1K 数据 集训 练 框架 ， 再 使 用 
VOC2012 数据 集 进行 仿真 验证 。 结 果 表明 ， 与 传统 通信 方案 相 比 ， 该 服务 框架 
在 目标 检测 和 图 像 语义 重建 上 均 取 得 了 最 优 性 能 ， 且 取得 了 与 全 语义 特征 传输 
方案 相近 的 性 能 ， 有 望 成 为 6G 网 络 的 技术 内 容 。 


= 


5.43 ”高 性 能 计算 

提高 能 源 效率 是 高 性 能 计算 研究 的 一 个 重要 目标 。 通 过 配置 程序 的 最 优 能 
效 设置 ， 如 处 理 器 频率 等 ,可 以 降低 程序 执行 时 的 能 耗 。 但 决定 最 优 配置 是 一 个 
费时 的 过 程 ， 程 序 一 旦 修改 就 需要 重新 配置 。 利 用 机 器 学 习 方法 通过 性 能 事件 
来 自动 决定 最 优 配置 是 一 个 新 的 研究 方向 ， 但 需要 确定 哪些 事件 是 能 效 相关 的 
以 决定 最 优 配置 。Gocht-Zech [130] 提出 利用 特征 选择 的 方法 来 选择 能 效 相关 事 
件 ， 他 选择 了 6 种 特征 选择 方法 ， 并 基于 CE 理论 给 出 了 相应 的 估计 方法 。 实 
际 数据 实验 表明 该 基于 copula 的 方法 能 够 鉴别 出 能 效 相关 的 性 能 事件 ， 从 而 提 
高 程序 执行 时 的 能 效 ， 在 增加 7% 运行 时 的 成 本 下 节省 了 24% 的 能 源 消耗 


= 


5.44 测绘 遥感 


高 光谱 遥感 是 应 用 广泛 的 前 沿 测绘 技术 ， 通 过 遥感 光谱 成 像 ， 能 够 获取 不 
同 地 物 的 诊断 性 光谱 信息 。 由 于 高 光谱 图 像 波段 数 多 ， 数 据 大 且 存 在 大 量 宛 余 
信息 ， 需 要 利用 特征 提取 技术 对 有 效 波段 进行 选择 ， 以 表征 成 像 对 象 体 。 因 此 ， 
高 光谱 图 像 波 段 选择 是 该 领域 的 重要 问题 之 一 ， 主 要 思想 是 选择 一 个 波段 子 集 ， 
使 得 成 像 评价 准则 函数 达到 最 大 。 其 中 ， 基 于 信息 论 的 准则 是 波段 选择 的 主要 
方法 之 一 。Zeng 和 Durrani [131] 提出 利用 基于 CE 的 MI 选择 波段 的 方法 ， 并 
将 其 应 用 于 美国 印第安 纳西 北 的 Indian Pine 处 采集 的 真实 高 光谱 数据 , 结果 表 
明 CE 提供 了 一 种 鲁 棱 的 MI 波段 选择 方法 。 


5.45 ”金融 工程 


量化 金融 是 通过 对 金融 数据 的 数量 关系 分 析 指 导 金 融 决 策 的 新 兴 金 融 学 科 。 
基于 金融 交易 系统 产生 的 大 量 金融 市 场 交易 数据 ， 利 用 数学 工具 分 析 金 融 产品 
之 间 的 数量 关系 ,可 以 明晰 市 场 规律 和 动态 ,进而 管理 金融 资产 。 其中， 分析 市 
场 金 融 变量 之 间 的 相关 性 是 金融 工程 的 重要 问题 ， 可 以 帮助 交易 员 洞察 它们 之 
间 的 动态 关系 ， 进 而 调整 投资 组 合 和 管理 风险 。 由 于 金融 市 场 变量 具有 非 线性 、 
非 高 斯 性 等 特征 ， 使 得 MI 成 为 了 理想 的 相关 性 度量 , 而 MI 估计 算法 则 成 了 量 
化 金融 工具 箱 的 重要 工具 之 一 。 基 于 CE 的 MI 估计 算法 就 被 量化 金融 算法 库 
MLFinLab [132] 实现 ， 并 得 到 业界 广泛 应 用 。 
于 中 国 股票 市 场 ( 沪 市 A 股指 数 、 深 市 A 股指 数 和 沪 深 300 指数 ) 真实 
数据 ，Wang [133] 研究 了 利用 股票 资产 之 间 的 相关 性 关系 网 络 ， 优 化 投资 组 合 
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的 方法 。 方 法 采用 了 包括 CE 在 内 的 线性 和 非 线性 相关 性 度量 ， 基 于 相关 性 强 
度 构建 股票 资产 间 的 关系 网 络 ， 进 而 构建 投资 组 合 。 研 究 中 估计 了 不 同 Copula 
参数 函数 族 的 CE (MI). 

股票 市 场 的 投资 者 总 是 希望 投资 发 展 良好 的 上 市 公司 ， 因 此 甄别 一 只 股票 
的 好 坏 对 投资 者 十 分 重要 。ST 股票 制度 是 在 我 国 A 股市 场 实施 的 股票 风险 警 
示 机 制 ， 有 助 于 投资 者 选择 投资 组 合并 规避 风险 。 股 票 分 类 是 股票 分 析 领 域 的 
一 类 重要 问题 ， 对 金融 市 场 投资 者 具有 参考 价值 。 朱 仲 儿 [134] 提出 了 一 种 基于 
机 器 学 习 方法 的 ST 股票 分 类 方法 ， 采 用 Boruta 算法 和 CE 方法 进行 特征 选 
择 ， 再 利用 6 种 回归 模型 进行 预测 , 利用 Optuna 框架 对 模型 的 超 参数 寻 优 。 他 
选取 了 tushare 数据 库 中 上 交 所 和 深交 所 的 2076 只 股票 ( 含 351 只 ST 股票 ) 
自 2016 年 以 来 的 数据 ， 含 有 139 个 股票 特征 变量 ， 最 终 利 用 Boruta 和 CE 77 
法 筛选 了 7 个 可 解释 的 变量 。 模 型 预测 结果 表明 该 方法 在 筛选 特征 和 XGBoost 
模型 组 合 上 获得 了 最 好 的 预测 精度 。 

分 析 金 融 数据 需要 对 其 建 模 数学 模型 ， 但 金融 变量 以 及 其 联合 分 布 具有 非 
高 斯 性 ， 给 数据 建 模 带 来 了 挑战 。Calsaverini 和 Vicente [135,136] 给 出 了 一 种 
巧妙 的 Copula 函数 模型 选择 方法 。 该 方法 利用 CE (MI) 的 边缘 分 布 无 关 特性 ， 
将 Copula 鉴别 问题 的 目标 与 边缘 函数 分 开 ， 再 利用 CE 的 定义 ， 将 问题 转化 为 
以 MI 为 上 界 的 模型 选择 问题 。 作 者 还 定义 了 超 量 信息 (Informaion Excess) 的 
概念 。 作 者 将 建 模 方法 应 用 于 1990 至 2008 年 间 标 普 500 指数 的 150 只 股票 的 
每 日 对 数 收益 率 数据 ,利用 超 量 信息 ， 验 证 了 该 方法 作用 于 T-Copula 函数 族 时 
的 有 效 性 。 

R J Copula 是 一 种 灵活 的 构建 多 元 copula 分 布 的 工具 ， 确 定 蕨 的 结构 是 
建立 此 类 模型 的 关键 步骤 。Alanazi [137] 基于 CE 和 MI. CMI 之 间 的 关系 ， 提 
出 了 一 种 R 了 copula 的 构建 方法 ， 基 于 MI 建立 最 小 生成 树 ， 再 计算 前 一 子 树 
每 对 边 上 的 CMI， 根 据 CMI 建立 新 的 子 树 并 决定 藤 copula 的 层级 结构 。 他 将 
该 RPK copula 构建 方法 应 用 于 股票 间 相关 结构 的 建 模 问题 ， 基 于 德国 DAX 指 
数 15 种 主要 股票 数据 (2005 年 1 月 至 2009 年 8 月 ) 构建 了 资产 间 关系 结构 
的 R RE copula 模型 ， 与 传统 方法 相 比 ， 该 方法 建立 的 copula 相关 结构 模型 能 
够 更 好 地 拟 合 数据 。 
金融 危机 的 发 生 使 金融 系统 的 系统 性 风险 问题 受到 各 国 监管 部 门 的 关注 。 
随 着 我 国 股票 市 场 逐 渐 放 开 管制 ， 经 济 金融 一 体 化 程度 不 断 加 深 ， 各 个 行业 间 
的 耦合 关系 加 大 了 系统 性 风险 的 程度 ， 因 此 需要 对 跨行 业 的 风险 溢出 效应 加 以 
研究 , 以 期 进行 防范 和 化 解 。 炳 作为 量化 不 确定 性 的 数学 工具 ， 十 分 适合 度量 金 
融 风 险 组 合 。 能 靖宇 [138] 采用 CE 等 工具 对 2005 年 1 月 5 日 至 2020 年 7 月 3 
日 我 国 股票 市 场 11 个 行业 的 日 对 数 收益 率 数据 进行 了 分 析 ， 研究 行 业 个 体 风险 
和 跨行 业 风险 溢出 特征 的 动态 演变 过 程 , 特别 针对 2008 年 金融 危机 、2013 年 钱 
FEA 2015 年 股灾 三 个 时 期 的 风险 特征 进行 研究 。 研 究 发 现 , 行业 联合 CE 动态 
变化 滞后 于 累加 独立 烂 发 生 ， 说 明了 行业 间 联 动 导 致 了 系统 性 风险 增强 ; 2008 
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年 金融 危机 的 市 场 内 部 传染 性 更 强 ， 破 坏 程度 更 大 ; 近期 11 个 行业 内 部 关联 水 


PRIR. 


金融 脆弱 性 是 由 金融 部 门 自身 高 负 人 


贵 经 营 带 来 的 内 在 不 稳定 性 。 金 融 脆弱 
性 度量 工具 可 以 使 国家 及 时 地 对 危机 进行 响应 和 干预 ， 因 此 得 到 了 大 量 的 研究 。 


日 益 成 熟 的 网 络 分 析 理 论 为 从 金融 网 络 的 角度 度量 金融 脆弱 性 提供 了 方法 工具 ， 


但 传统 的 网 络 构 建 方法 只 是 基于 线 怕 


E 关 系 度量 工具 ， ed ea 


能 够 反映 金融 系统 中 的 非 线性 关系 特性 。 


进 的 网 络 曲 率 (Network Curvature) 


4 Bi 


Chen 等 [139] 提出 了 一 种 利用 CE 改 
脆弱 性 deg 该 方法 先 利用 CE 


构建 金融 网 络 , 再 计算 网 络 的 四 种 离散 Ricci 曲率 作为 市 场 脆弱 性 度量 。 他们 将 
该 度量 方法 应 用 于 2006 4E 4 月 至 2022 年 4 月 间 沪 深 300 指数 的 股票 数据 ,分 
析 金 融 危机 前 后 的 市 场 脆 弱 性 。 结 果 表 明 ， 该 度量 方法 比 基 于 皮尔 逊 相关 的 方 


法 更 清晰 地 描述 了 金融 危机 后 市 场 的 脆弱 性 ， 且 具有 传统 


度量 能 


\ 念 度量 | 司 样 的 风险 


信用 风险 是 金融 银行 业 面 对 的 主要 基本 风险 之 一 ， 保障 金融 安全 需要 有 效 
地 管理 信用 风险 。 信 用 评分 卡 模型 是 一 种 对 客户 进行 信用 风险 评价 的 模型 方法 ， 


是 管控 金融 风险 的 决策 工具 。 该 类 模型 根据 客户 的 信用 历史 数据 为 其 划分 信用 


等 级 , 来 决定 其 金融 权限 。 传 统 的 建立 信用 评分 卡 模型 方法 依靠 专家 经 验 , 效率 


低 且 生成 的 模型 不 够 完善 。 孔 祥 永 等 [140] 提出 一 种 基于 CE 的 自动 化 信用 风险 


模型 构建 方法 ， 能 够 显著 提高 建 模 效 率 ， 可 以 同时 保证 模型 具有 高 预测 性 能 和 


果 表 明 方 法 大 大 缩短 了 建 模 时 间 ， 且 
释 的 客户 信用 特征 。 


6 


可 解释 性 。 作 者 将 该 方法 在 真实 信用 卡 数据 上 与 专家 建 模 进 行 了 对 比 ， 实 验 结 


能 够 得 到 媲美 专家 模型 的 预测 性 能 和 可 解 


总 结 


统计 独立 性 是 统计 学 和 机 器 学 习 领 域 的 基础 性 概念 ， 如 何 表示 和 度量 统计 


独立 性 是 该 领域 的 基本 问题 。Copula 理论 提供 了 统计 相关 性 表示 的 理论 工具 ， 
通过 将 随机 变量 的 边缘 函数 与 表示 统计 关联 性 的 Copula 函数 相 分 离 ， 得 到 了 
表示 任何 关联 性 的 数学 形式 。 而 CE 理论 
度量 了 Copula 函数 表示 中 所 有 的 信息 量 ， 也 就 是 相关 性 的 强度 。CE 是 一 种 具 


有 诸多 公理 性 属性 的 理想 的 统计 度量 工具 。 
本 文 综述 了 CE 的 理论 和 应 用 ， 介 绍 


则 给 出 了 度量 统计 独立 性 的 概念 工具 ， 


了 CE 基本 概念 定义 、 与 MI 等 价 性 


的 定理 和 推论 ， 以 及 CE 的 性 质 。 介 绍 了 CE 的 非 参 数 估计 方法 。 
CE 研究 的 最 新 进展 ， eC Ec pci 关联 发 现 、 


量 选择 、 因 果 发 现 、 系 统 辨识 、 时 延 估计 、 


域 自 适应 、 态 性 检验 和 双 样本 检验 


等 ) 上 的 理论 应 用 , 讨论 了 前 四 个 理 ; ee 探讨 了 这 四 个 应 用 对 应 


的 深层 次 的 相关 性 和 因果 性 概念 之 间 的 联系 ， 并 将 基于 CE By CETT) 独立 性 


度量 框架 与 基于 核 函数 和 距离 的 相关 性 度量 框架 进行 了 对 比 ， 指 出 了 本 理论 框 
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架 在 多 个 方面 的 理论 优越 性 ， 又 通过 仿真 和 实际 数据 实验 评估 验证 了 CE 的 实 
际 优越 性 。 

本 文 综 述 了 CE 在 理论 物理 学 、 理 论 化 学 、 化 学 信息 学 、 材 料 学 、 水 文学 、 
气候 学 、 气 象 学 、 环 境 学 、 生 态 学 、 动 物 形 态 学 、 农 学 、 认 知 神经 学 、 运 动 神 经 
学 、 计 算 神 经 学 、 心 理学 、 系 统 生物 学 、 生 物 信息 学 、 临 床 诊断 学 、 老 年 医学 、 
精神 病 学 、 公 共 卫 生 学 、 经 济 学 、 管 理学 、 社 会 学 、 教 育 学 、 计 算 语言 学 、 新 闻 
传播 学 、 法 学 、 政 治学 、 军 事 学 、 情 报 学 ， 以 及 能 源 工程 、 食 品 工程 、 土 木 建筑 、 
交通 运输 、 制 造 工 程 、 可 靠 性 工程 、 化 学 工程 、 航 空 航天 、 和 车辆 工程 、 电 子 工 
程 、 通信 工程 、 高 性 能 计算 、 测 绘 通 感 和 金融 工程 等 多 学 科 领 域 的 实际 应 用 。 基 
于 CE 带 来 的 理论 和 计算 上 的 优势 ， 在 这 些 应 用 中 CE 被 用 来 分 析 和 度量 各 种 
类 型 数据 中 的 统计 关联 性 或 因果 性 ， 通 过 选择 变量 来 建立 模型 ， 以 及 作为 评价 
指标 评价 模型 ， 均 取得 了 良好 的 应 用 效果 。CE 作为 一 种 基础 性 工具 ， 不 仪 为 这 
些 应 用 提供 了 基本 的 理论 和 方法 ， 也 为 应 用 中 各 种 新 方法 论 的 派生 提供 了 可 能 。 
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本 文 所 述 的 CE 估计 算法 、TE 估计 算法 、 正 态 性 检验 和 双 样 本 检验 的 统 
计量 的 估计 算法 已 在 R 和 Python 语言 的 copent 算法 包 中 实现 有 4 机 ， 分 别 在 
CRAN 和 PyPI 上 共享 : 


。 CRAN https://cran.r-project.org/package-copent; 
e PyPI https://pypi.org/project/copent/.. 


相关 源码 见 作者 的 GitHub: https: //github.con/majianthu/. 
另 ， 第 三 方 实现 的 CE 估计 算法 包括 ; 


。R 语言 的 Cylcop 包 pil f.o4): 

。 Python 语言 的 MLFinLab 包 [132]: 

。 Julia 语言 的 CopEnt.jl 包 和 CausalityTools.jl 包 [199]: 以 及 
。 Matlab 和 Python 语言 的 gcmi 包 balod 等 。 
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